ETL 测试 – 介绍

ETL 测试 – 介绍


数据仓库系统中的数据使用 ETL(提取、转换、加载)工具加载。顾名思义,它执行以下三个操作 –

  • 从您的交易系统中提取数据,该系统可以是 Oracle、Microsoft 或任何其他关系数据库,

  • 通过执行数据清理操作来转换数据,然后

  • 将数据加载到 OLAP 数据仓库中。

您还可以使用 ETL 工具从电子表格和 CSV 文件等平面文件中提取数据,并将其加载到 OLAP 数据仓库中以进行数据分析和报告。让我们举一个例子来更好地理解它。

例子

让我们假设有一个制造公司有多个部门,如销售、人力资源、材料管理、EWM 等。所有这些部门都有单独的数据库,他们用来维护他们的工作信息,每个数据库都有不同的技术、景观、表格名称、列等。现在,如果公司要分析历史数据并生成报告,则应从这些数据源中提取所有数据并将其加载到数据仓库中以保存以供分析工作。

ETL 工具从所有这些异构数据源中提取数据,转换数据(如应用计算、连接字段、键、删除不正确的数据字段等),并将其加载到数据仓库中。稍后,您可以使用各种商业智能 (BI) 工具来使用这些数据生成有意义的报告、仪表板和可视化。

ETL和BI工具的区别

ETL工具用于从不同的数据源中提取数据,转换数据,并将其加载到DW系统中;然而,BI 工具用于为最终用户生成交互式和临时报告、高级管理人员的仪表板、月度、季度和年度董事会会议的数据可视化。

最常见的 ETL 工具包括 – SAP BO 数据服务 (BODS)、Informatica – Power Center、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL Open source 等。

一些流行的 BI 工具包括 – SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI Platform、Tableau、Oracle Business Intelligence Enterprise Edition 等。

ETL流程

现在让我们更详细地讨论 ETL 过程中涉及的关键步骤 –

提取数据

它涉及从不同的异构数据源中提取数据。从事务系统中提取的数据因需求和使用的 ETL 工具而异。它通常通过在非工作时间运行预定作业来完成,例如在晚上或周末运行作业。

提取数据

转换数据

它涉及将数据转换为可以轻松加载到 DW 系统的合适格式。数据转换涉及对数据应用计算、连接以及定义主键和外键。例如,如果您想要不在数据库中的总收入的百分比,您将在转换中应用百分比公式并加载数据。类似地,如果您在不同的列中有用户的名字和姓氏,那么您可以在加载数据之前应用连接操作。有些数据不需要任何转换;此类数据称为直接移动传递数据

数据转换还涉及数据校正和数据清理、删除不正确的数据、不完整的数据形成和修复数据错误。在将数据加载到 DW 系统之前,它还包括数据完整性和格式化不兼容的数据。

将数据加载到 DW 系统中

它涉及将数据加载到 DW 系统中以进行分析报告和信息。目标系统可以是简单的带分隔符的平面文件或数据仓库。

ETL工具功能

典型的基于 ETL 工具的数据仓库使用暂存区、数据集成和访问层来执行其功能。它通常是一个 3 层架构。

  • 分段层-分期层或分段数据库用于存储从不同的源的数据系统中提取的数据。

  • 数据集成层– 集成层转换来自暂存层的数据并将数据移动到数据库,在数据库中数据被排列成层次结构组,通常称为维度,以及事实聚合事实DW 系统中的事实表和维度表的组合称为模式

  • 访问层– 最终用户使用访问层来检索数据以进行分析报告和信息。

下图显示了三个层如何相互作用。

ETL工具功能

觉得文章有用?

点个广告表达一下你的爱意吧 !😁