SAP BODS – 快速指南

SAP BODS – 快速指南


DW – 概述

数据仓库被称为中央存储库,用于存储来自一个或多个异构数据源的数据。数据仓库用于报告和分析信息,并存储历史和当前数据。DW 系统中的数据用于分析报告,稍后由业务分析师、销售经理或知识工作者用于决策。

DW系统中的数据是从Sales、Marketing、HR、SCM等运营事务系统加载的,在加载到DW系统进行信息处理之前,可能要经过运营数据存储或其他转换。

数据仓库 – 主要功能

DW 系统的主要特点是 –

  • 它是中央数据存储库,其中存储来自一个或多个异构数据源的数据。

  • DW 系统存储当前和历史数据。通常,DW 系统存储 5-10 年的历史数据。

  • DW 系统始终与操作事务系统分开。

  • DW 系统中的数据用于从季度到年度比较的不同类型的分析报告。

需要 DW 系统

假设您有一个房屋贷款机构,其中的数据来自多个应用程序,例如营销、销售、ERP、HRM、MM 等。这些数据在数据仓库中被提取、转换和加载。

例如,如果您必须比较产品的季度/年度销售额,则不能使用操作事务数据库,因为这会挂起事务系统。因此,为此目的使用了数据仓库。

DW和ODB的区别

数据仓库和操作数据库(事务数据库)之间的区别如下 –

  • 事务系统是为已知的工作负载和事务而设计的,例如更新用户记录、搜索记录等。然而,数据仓库事务更复杂,并且呈现出一种通用的数据形式。

  • 事务系统包含组织的当前数据,数据仓库通常包含历史数据。

  • 交易系统支持多笔交易的并行处理。需要并发控制和恢复机制来保持数据库的一致性。

  • 操作数据库查询允许读取和修改操作(删除和更新),而 OLAP 查询只需要对存储的数据(Select 语句)进行只读访问。

数据仓库架构

数据仓库涉及数据清理、数据集成和数据整合。

数据仓库架构

数据仓库具有 3 层架构 –数据源层、集成层表示层上图显示了数据仓库系统的通用架构。

DW – 类型

有四种类型的数据仓库系统。

  • 数据库
  • 在线分析处理 (OLAP)
  • 在线事务处理 (OLTP)
  • 预测分析 (PA)

数据库

数据集市被称为数据仓库系统的最简单形式,通常由组织中的单个功能区域组成,如销售、财务或营销等。

组织中的数据集市,由单个部门创建和管理。由于它属于单个部门,因此该部门通常仅从少数或一种类型的来源/应用程序中获取数据。该来源可以是内部操作系统、数据仓库或外部系统。

在线分析处理

在 OLAP 系统中,与事务系统相比,事务数量较少。执行的查询本质上是复杂的,并且涉及数据聚合。

什么是聚合?

我们保存包含聚合数据的表格,例如每年(1 行)、每季度(4 行)、每月(12 行)等,如果有人必须进行年度比较,则只会处理一行。但是,在未聚合的表中,它将比较所有行。

SELECT SUM(salary)
FROM employee
WHERE title = 'Programmer';

OLAP系统中的有效措施

响应时间被称为OLAP系统中最有效和最关键的度量之一聚合存储的数据在多维模式中维护,如星型模式(当数据被安排到层次结构组中时,通常称为维度,并分为事实和聚合事实,称为模式)。

OLAP 系统的延迟是几个小时,而数据集市的延迟预计接近一天。

在线交易处理

在OLTP系统中,存在大量的INSERT、UPDATE、DELETE等短的在线事务。

在 OLTP 系统中,一个有效的措施是处理短事务的时间非常少。它控制多路访问环境中的数据完整性。对于 OLTP 系统,每秒事务数衡量有效性OLTP 数据仓库系统包含当前和详细的数据,并在实体模型 (3NF) 的模式中进行维护。

例子

零售店中的日常交易系统,每天插入、更新和删除客户记录。它提供了非常快速的查询处理。OLTP 数据库包含详细的当前数据。用于存储OLTP 数据库的Schema 是Entity 模型。

OLTP 和 OLAP 的区别

下图显示了OLTPOLAP系统之间的主要区别

OLTP 和 OLAP

  • 索引– OLTP 系统只有很少的索引,而在 OLAP 系统中有许多用于性能优化的索引。

  • 联接– 在 OLTP 系统中,大量联接和数据被规范化。但是,在 OLAP 系统中,联接较少并且是非规范化的。

  • 聚合– 在 OLTP 系统中,数据未聚合,而在 OLAP 数据库中使用更多聚合。

预测分析

预测分析是通过使用不同的数学函数来预测未来结果,从而发现存储在 DW 系统中的数据中的隐藏模式。

预测分析系统在使用方面不同于 OLAP 系统。它用于关注未来的结果。OALP 系统侧重于分析报告的当前和历史数据处理。

DW – 产品和供应商

市场上有各种满足 DW 系统功能的数据仓库/数据库系统。数据仓库系统最常见的供应商是 –

  • 微软 SQL 服务器
  • 甲骨文数据库
  • IBM Netezza
  • Teradata
  • Sybase IQ
  • SAP 业务仓库 (SAP BW)

SAP 业务仓库

SAP Business Warehouse是 SAP NetWeaver 发布平台的一部分。在 NetWeaver 7.4 之前,它被称为 SAP NetWeaver Business Warehouse。

SAP BW 中的数据仓库意味着数据集成、转换、数据清理、存储和数据分段。DW 流程包括 BW 系统中的数据建模、登台和管理。BW系统中用于管理DW任务的主要工具是管理工作台。

主要特征

  • SAP BW 提供商业智能等功能,其中包括分析服务和业务规划、分析报告、查询处理和信息以及企业数据仓库。

  • 它提供了有助于做出决策的数据库和数据库管理工具的组合。

  • BW 系统的其他主要功能包括支持连接到非 SAP R/3 应用程序的业务应用程序编程接口 (BAPI)、自动数据提取和加载、集成的 OLAP 处理器、元数据存储库、管理工具、多语言支持和启用网络的界面。

  • SAP BW 于 1998 年由德国公司 SAP 首次推出。SAP BW 系统基于模型驱动的方法,使 SAP R3 数据的企业数据仓库变得轻松、简单和高效。

  • 从过去的 16 年开始,SAP BW 已经发展成为许多公司管理其企业数据仓库需求的关键系统之一。

  • Business Explorer (BEx)提供了在公司中进行灵活报告、战略分析和运营报告的选项。

  • 它用于在 BI 系统中执行报告、查询执行和分析功能。您还可以通过 Web 和 Excel 格式处理当前和历史数据,直至达到各种详细程度。

  • 使用BEx信息广播,BI 内容可以通过电子邮件作为文档或以链接的形式作为实时数据进行共享,您也可以使用 SAP EP 功能进行发布。

业务对象和产品

SAP Business Objects 被称为最常见的商业智能工具,用于在不同平台上处理数据、用户访问、分析、格式化和发布信息。它是一组基于前端的工具,使业务用户和决策者能够显示、排序和分析商业智能当前和历史数据。

它包括以下工具 –

网络智能

Web Intelligence (WebI) 被称为最常见的 Business Objects 详细报告工具,它支持各种数据分析功能,如钻取、层次结构、图表、计算度量等。它允许最终用户在查询面板中创建临时查询和在线和离线进行数据分析。

SAP Business Objects Xcelsius / 仪表板

仪表板为最终用户提供数据可视化和仪表板功能,您可以使用此工具创建交互式仪表板。

您还可以添加各种类型的图表和图形,并为数据可视化创建动态仪表板,这些主要用于组织的财务会议。

水晶报表

Crystal Reports 用于像素完美的报告。这使用户能够创建和设计报告,然后将其用于打印目的。

探险家

Explorer 允许用户搜索 BI 存储库中的内容,并以图表的形式显示最佳匹配项。无需写下查询来执行搜索。

为详细报告、数据可视化和仪表板目的引入的各种其他组件和工具是 Design Studio、Microsoft Office 分析版、BI 存储库和 Business Objects 移动平台。

ETL – 简介

ETL 代表提取、转换和加载。ETL 工具从不同的 RDBMS 源系统中提取数据,转换数据,如应用计算、连接等,然后将数据加载到数据仓库系统。数据以维度表和事实表的形式加载到DW系统中。

萃取

  • 在 ETL 加载期间需要一个暂存区。需要集结区的原因有很多。

  • 源系统仅在特定时间段内可用于提取数据。这段时间小于总数据加载时间。因此,暂存区允许您从源系统中提取数据,并在时隙结束前将其保存在暂存区中。

  • 当您想从多个数据源一起获取数据或者您想将两个或多个系统连接在一起时,需要暂存区。例如,您将无法执行连接来自两个物理上不同的数据库的两个表的 SQL 查询。

  • 不同系统的数据提取时间段因时区和运行时间而异。

  • 从源系统中提取的数据可用于多个数据仓库系统、操作数据存储等。

  • ETL 允许您执行复杂的转换并需要额外的区域来存储数据。

ETL提取

转换

在数据转换中,您对提取的数据应用一组函数以将其加载到目标系统中。不需要任何转换的数据称为直接移动或传递数据。

您可以对从源系统提取的数据应用不同的转换。例如,您可以执行自定义计算。如果您想要销售收入总和并且这不在数据库中,您可以在转换过程中应用SUM公式并加载数据。

例如,如果您在不同列的表中具有名字和姓氏,则可以在加载之前使用连接。

加载

在加载阶段,数据被加载到最终目标系统中,它可以是平面文件或数据仓库系统。

SAP BODS – 概述

SAP BO Data Services 是一种 ETL 工具,用于数据集成、数据质量、数据剖析和数据处理。它允许您集成、转换受信任的数据到数据仓库系统以进行分析报告。

BO 数据服务由 UI 开发界面、元数据存储库、与源和目标系统的数据连接以及用于调度作业的管理控制台组成。

数据整合与数据管理

SAP BO Data Services 是一种数据集成和管理工具,由 Data Integrator Job Server 和 Data Integrator Designer 组成。

主要特征

  • 您可以使用 Data Integrator 语言应用各种数据转换,以应用复杂的数据转换和构建自定义函数。

  • Data Integrator Designer 用于在存储库中存储实时和批处理作业以及新项目。

  • DI Designer 还通过提供具有所有基本功能的中央存储库,为基于团队的 ETL 开发提供了一个选项。

  • Data Integrator 作业服务器负责处理使用 DI Designer 创建的作业。

网络管理员

系统管理员和数据库管理员使用 Data Integrator Web 管理员来维护数据服务中的存储库。数据服务包括元数据存储库、用于基于团队的开发的中央存储库、作业服务器和 Web 服务。

DI Web Administrator 的主要功能

  • 它用于调度、监视和执行批处理作业。
  • 它用于配置和启动和停止实时服务器。
  • 它用于配置作业服务器、访问服务器和存储库使用。
  • 它用于配置适配器。
  • 它用于配置和控制 BO 数据服务中的所有工具。

数据管理功能强调数据质量。它涉及数据清理、增强和合并数据,以在 DW 系统中获得正确的数据。

SAP BODS – 架构

在本章中,我们将了解 SAP BODS 架构。该图显示了具有暂存区的 BODS 系统的架构。

源层

源层包括不同的数据源,如 SAP 应用程序和非 SAP RDBMS 系统,数据集成发生在暂存区。

SAP Business Objects Data Services 包括不同的组件,如数据服务设计器、数据服务管理控制台、存储库管理器、数据服务服务器管理器、工作台等。目标系统可以是 DW 系统,如 SAP HANA、SAP BW 或非 SAP数据仓库系统。

SAP BODS 源层

以下屏幕截图显示了 SAP BODS 的不同组件。

SAP BODS 组件

您还可以将 BODS 架构分为以下几层 –

  • 网络应用层
  • 数据库服务器层
  • 数据服务服务层

下图显示了 BODS 架构。

BODS架构

产品演进 – ATL、DI 和 DQ

Acta Technology Inc. 开发了 SAP Business Objects Data Services,后来被 Business Objects Company 收购。Acta Technology Inc. 是一家美国公司,负责开发首个数据集成平台。Acta Inc. 开发的两个 ETL 软件产品是数据集成 (DI)工具和数据管理数据质量( DQ ) 工具。

Business Objects 是一家法国公司,于 2002 年及之后收购了 Acta Technology Inc.,这两款产品更名为Business Objects Data Integration (BODI)工具和Business Objects Data Quality (BODQ)工具。

SAP 在 2007 年收购了 Business Objects,两个产品都更名为 SAP BODI 和 SAP BODQ。2008 年,SAP 将这两种产品集成到名为 SAP Business Objects Data Services (BODS) 的单一软件产品中。

SAP BODS 提供数据集成和数据管理解决方案,在早期版本的 BODS 中,包含文本数据处理解决方案。

BODS – 对象

BO 数据服务设计器中使用的所有实体都称为Objects项目、作业、元数据和系统功能等所有对象都存储在本地对象库中。所有对象本质上都是分层的。

对象主要包含以下内容 –

  • 属性– 它们用于描述对象并且不影响其操作。示例 – 对象名称、创建日期等。

  • 选项– 控制对象的操作。

对象类型

系统中有两种类型的对象 – 可重用对象和单次使用对象。对象的类型决定了如何使用和检索该对象。

可重用对象

存储在存储库中的大多数对象都可以重复使用。当一个可重用对象被定义并保存在本地存储库中时,您可以通过创建对定义的调用来重用该对象。每个可重用对象只有一个定义,并且对该对象的所有调用都引用该定义。现在,如果一个对象的定义在一个地方改变了,你就改变了该对象出现的所有地方的对象定义。

对象库用于包含对象定义,当从库中拖放对象时,会创建对现有对象的新引用。

一次性物品

专门为作业或数据流定义的所有对象都称为一次性对象。例如,在任何数据加载中使用的特定转换。

BODS – 对象层次结构

所有对象本质上都是分层的。下图显示了 SAP BODS 系统中的对象层次结构 –

对象层次结构

BODS – 工具和功能

基于下图所示的架构,我们在 SAP Business Objects Data Services 中定义了许多工具。根据系统环境,每个工具都有自己的功能。

工具和功能

在顶部,您为用户和权限安全管理安装了信息平台服务。BODS 依靠中央管理控制台 ( CMC ) 来实现用户访问和安全功能。这适用于 4.x 版本。在以前的版本中,它是在管理控制台中完成的。

SAP BODS – 数据服务设计器

Data Services Designer 是一个开发工具,用于创建由数据映射、转换和逻辑组成的对象。它基于 GUI 并作为数据服务的设计器工作。

存储库

Repository 用于存储 BO 数据服务中使用的对象的元数据。每个存储库都应在中央管理控制台中注册,并与单个或多个作业服务器链接,这些服务器负责执行您创建的作业。

存储库类型

存储库分为三种类型。

  • 本地存储库– 用于存储在数据服务设计器中创建的所有对象的元数据,如项目、作业、数据流、工作流等。

  • Central Repository – 用于控制对象的版本管理,用于多用途开发。中央存储库存储应用程序对象的所有版本。因此,它允许您移动到以前的版本。

  • Profiler Repository – 用于管理与 SAP BODS 设计器中执行的探查器任务相关的所有元数据。CMS Repository 存储在 BI 平台上的 CMC 中执行的所有任务的元数据。Information Steward Repository 存储在 Information Steward 中创建的分析任务和对象的所有元数据。

作业服务器

作业服务器用于执行您创建的实时和批量作业。它从各个存储库中获取作业信息并启动数据引擎来执行作业。作业服务器可以执行实时或计划作业,并在内存缓存和并行处理中使用多线程来提供性能优化。

访问服务器

数据服务中的访问服务器被称为实时消息代理系统,它接受消息请求,移动到实时服务并在特定时间范围内显示消息。

数据服务管理控制台

数据服务管理控制台用于执行管理活动,如调度作业、在 DS 系统中生成质量报告、数据验证、文档等。

BODS——命名标准

建议对所有系统中的所有对象使用标准命名约定,因为这允许您轻松识别存储库中的对象。

该表显示了应用于所有作业和其他对象的推荐命名约定列表。

Prefix 后缀 目的
DF_ 不适用 数据流
EDF_ _输入 嵌入式数据流
EDF_ _输出 嵌入式数据流
RTJob_ 不适用 实时作业
WF_ 不适用 工作流程
JOB_ 不适用 工作
n/a _DS 数据存储
DC_ 不适用 数据配置
SC_ 不适用 系统配置
n/a _内存_DS 内存数据存储
PROC_ 不适用 存储过程

SAP BODS – 存储库概览

BO 数据服务基础包括设计工作流的关键对象,如项目、作业、工作流、数据流、存储库。

BODS – 存储库和类型

Repository 用于存储 BO 数据服务中使用的对象的元数据。每个存储库都应在中央管理控制台 CMC 中注册,并与单个或多个作业服务器链接,这些服务器负责执行您创建的作业。

存储库类型

存储库分为三种类型。

  • 本地存储库– 用于存储在数据服务设计器中创建的所有对象的元数据,如项目、作业、数据流、工作流等。

  • Central Repository – 用于控制对象的版本管理,用于多用途开发。中央存储库存储应用程序对象的所有版本。因此,它允许您移动到以前的版本。

  • Profiler Repository – 用于管理与 SAP BODS 设计器中执行的探查器任务相关的所有元数据。CMS Repository 存储在 BI 平台上的 CMC 中执行的所有任务的元数据。Information Steward Repository 存储在 Information Steward 中创建的分析任务和对象的所有元数据。

SAP BODS – 存储库创建和更新

要创建 BODS 存储库,您需要安装一个数据库。您可以使用 SQL Server、Oracle 数据库、My SQL、SAP HANA、Sybase 等。

创建存储库

在安装 BODS 和创建存储库时,您必须在数据库中创建以下用户。这些用户需要登录到不同的服务器,例如 CMS 服务器、审计服务器等。

创建由 Bodsserver1 识别的用户 BODS

  • 授予连接到 BODS;
  • 将创建会话授予 BODS;
  • 将 DBA 授予 BODS;
  • 授予 BODS 创建任何表的权限;
  • 授予 BODS 创建任何视图的权限;
  • 授予 BODS 删除任何表;
  • 授予 BODS 删除任何视图;
  • 将插入任何表授予 BODS;
  • 将更新任何表授予 BODS;
  • 将删除任何表授予 BODS;
  • 更改用户 BODS 配额对用户无限制;

创建由 CMSserver1 识别的用户 CMS

  • 授予连接到 CMS;
  • 将创建会话授予 CMS;
  • 授予 CMS 的 DBA;
  • 授予 CMS 创建任何表的权限;
  • 将创建任何视图授予 CMS;
  • 授予删除任何表给 CMS;
  • 授予删除任何视图到 CMS;
  • 将插入任何表授予 CMS;
  • 将更新任何表授予 CMS;
  • 将删除任何表授予 CMS;
  • 更改用户 CMS 配额对用户无限制;

创建由 CMSAUDITserver1 标识的用户 CMSAUDIT

  • 授予连接到 CMSAUDIT;
  • 将创建会话授予 CMSAUDIT;
  • 将 DBA 授予 CMSAUDIT;
  • 将创建任何表授予 CMSAUDIT;
  • 将创建任何视图授予 CMSAUDIT;
  • 授予删除任何表到 CMSAUDIT;
  • 将任何视图授予 CMSAUDIT;
  • 将 Insert Any 表授予 CMSAUDIT;
  • 将 Update Any 表授予 CMSAUDIT;
  • 将删除任何表授予 CMSAUDIT;
  • 更改用户 CMSAUDIT QUOTA 对用户无限制;

在安装后创建新的存储库

步骤 1 – 创建一个数据库Local_Repo并转到数据服务存储库管理器。将数据库配置为本地存储库。

创建新存储库

将打开一个新窗口。

步骤 2 – 在以下字段中输入详细信息 –

存储库类型、数据库类型、数据库服务器名称、端口、用户名和密码。

存储库详细信息

步骤 3 – 单击创建按钮。您将收到以下消息 –

点击创建按钮

第 4 步– 现在使用用户名和密码登录SAP BI 平台中的中央管理控制台 CMC

登录

步骤 5 – 在 CMC 主页上,单击数据服务

CMC主页

步骤 6 – 从数据服务菜单中,单击配置新的数据服务存储库。

数据服务菜单

步骤 7 – 输入新窗口中给出的详细信息。

  • 存储库名称:Local_Repo
  • 数据库类型:SAP HANA
  • 数据库服务器名称:最佳
  • 数据库名称:LOCAL_REPO
  • 用户名:
  • 密码:*****

详情 新窗口

步骤 8 – 单击按钮测试连接,如果成功,单击保存保存后,它将出现在 CMC 的存储库选项卡下。

步骤 9 – 在CMC → 用户和组中对本地存储库应用访问权限和安全性

步骤 10 – 获得访问权限后,转到数据服务设计器 → 选择存储库 → 输入用户名和密码以登录。

仓库登录

更新存储库

要更新存储库,请按照给定的步骤操作。

步骤 1 – 要在安装后更新存储库,请创建一个数据库Local_Repo并转到数据服务存储库管理器。

步骤 2 – 将数据库配置为本地存储库。

配置数据库

将打开一个新窗口。

步骤 3 – 输入以下字段的详细信息。

存储库类型、数据库类型、数据库服务器名称、端口、用户名和密码。

服务存储库管理器

您将看到如下面的屏幕截图所示的输出。

SAP BODS 输出

数据服务管理控制台

数据服务管理控制台 (DSMC) 用于执行管理活动,例如安排作业、在 DS 系统中生成质量报告、数据验证、文档等。

您可以通过以下方式访问数据服务管理控制台 –

您可以通过转至开始 → 所有程序 → 数据服务 → 数据服务管理控制台来访问数据服务管理控制台

管理控制台启动

如果您已经登录,还可以通过Designer访问数据服务管理控制台

要通过Designer 主页访问数据服务管理控制台,请按照以下步骤操作。

设计师主页

要通过工具访问数据服务管理控制台,请按照给定的步骤 –

步骤 1 – 转到工具 → 数据服务管理控制台,如下图所示。

管理控制台工具

第 2 步– 登录数据服务管理控制台后,主屏幕将打开,如下面的屏幕截图所示。在顶部,您可以看到用于登录的用户名。

在主页上,您将看到以下选项 –

  • 行政人员
  • 汽车文档
  • 数据验证
  • 影响和血统分析
  • 操作仪表盘
  • 数据质量报告

服务管理控制台

SAP BODS – DSMC 模块

本章介绍了数据服务管理控制台各个模块的主要功能。

管理员模块

管理员选项用于管理 –

  • 用户和角色
  • 添加到访问服务器和存储库的连接
  • 访问为 Web 服务发布的作业数据
  • 用于批处理作业的调度和监控
  • 检查访问服务器状态和实时服务。

单击管理员选项卡后,您可以在左窗格中看到许多链接。它们是 – 状态、批处理、Web 服务、SAP 连接、服务器组、探查器存储库管理和作业执行历史记录。

管理控制台管理员

节点

下面讨论管理员模块下的各个节点。

地位

状态节点用于检查批处理和实时作业的状态、访问服务器状态、适配器和分析器存储库以及其他系统状态。

单击状态 → 选择存储库

在右侧窗格中,您将看到以下选项的选项卡 –

批处理作业状态– 用于检查批处理作业的状态。您可以查看作业信息,例如 Trace、Monitor、Error 和 Performance Monitor、开始时间、结束时间、持续时间等。

批处理作业状态

批处理作业配置– 批处理作业配置用于检查单个作业的计划,或者您可以添加诸如执行、添加计划、导出执行命令之类的操作。

批处理作业配置

存储库计划– 用于查看和配置存储库中所有作业的计划。

批处理节点

在 Batch Job 节点下,您将看到与上述相同的选项。

Sr. No. 选项和说明
1

Batch Job Status

查看上次执行的状态和每个作业的深入信息。

2

Batch Job Configuration

为单个作业配置执行和调度选项。

3

Repository Schedules

查看和配置存储库中所有作业的计划。

网络服务节点

Web 服务用于将实时作业和批处理作业发布为 Web 服务操作并检查这些操作的状态。这也用于维护发布为 Web 服务的作业的安全性和查看WSDL文件。

网络服务节点

SAP 连接

SAP Connections 用于在数据服务管理控制台中检查状态或配置RFC 服务器接口

要检查 RFC 服务器接口的状态,请转到 RFC 服务器接口状态选项卡。要添加新的 RFC 服务器接口,请在配置选项卡上单击添加

当一个新窗口打开时,输入 RFC 服务器配置详细信息,单击Apply

RFC 服务器接口

服务器组

这用于将与同一存储库关联的所有作业服务器分组为一个服务器组。此选项卡用于在数据服务中执行作业时进行负载平衡。

执行作业时,它会检查相应的作业服务器,如果它关闭,则将作业移动到同一组中的其他作业服务器。它主要用于生产中的负载平衡。

服务器组

配置文件库

当您将配置文件存储库连接到管理员时,它允许您扩展配置文件存储库节点。您可以转到配置文件任务状态页面。

管理节点

要使用管理员选项卡的功能,您需要使用管理节点添加到数据服务的连接。管理节点由管理应用程序的不同配置选项组成。

管理节点

作业执行历史

这用于检查作业或数据流的执行历史。使用此选项,您可以检查一个批处理作业或您创建的所有批处理作业的执行历史记录。

当您选择一个Job时,信息以表格的形式显示出来,由Repository名称、Job名称、开始时间、结束时间、执行时间、状态等组成。

作业执行历史

SAP BODS – DS Designer 简介

数据服务设计器是一个开发者工具,用于创建由数据映射、转换和逻辑组成的对象。它基于 GUI 并作为数据服务的设计器工作。

您可以使用数据服务设计器创建各种对象,如项目、作业、工作流、数据流、映射、转换等。

要启动数据服务设计器,请按照以下步骤操作。

步骤 1 – 指向开始 → 所有程序 → SAP 数据服务 4.2 → 数据服务设计器。

指向开始

步骤 2 – 选择存储库并输入密码登录。

登录密码

选择 Repository 并登录到 Data Services Designer 后,将出现如下图所示的主屏幕。

存储库和登录

在左窗格中,您有项目区域,您可以在其中创建新项目、作业、数据流、工作流等。在项目区域中,您有本地对象库,其中包含在数据服务中创建的所有对象。

底部窗格对象

在底部窗格中,您可以通过转到特定选项(如项目、作业、数据流、工作流等)来打开现有对象。从底部窗格中选择任何对象后,它会显示所有类似的对象在本地对象库下的 Repository 中创建。

在右侧,您有一个主屏幕,可用于 –

  • 创建项目
  • 开放项目
  • 创建数据存储
  • 创建存储库
  • 从平面文件导入
  • 数据服务管理控制台

SAP BODS – DS Designer 中的 ETL 流程

要开发 ETL 流程,您首先需要为源系统和目标系统创建数据存储。按照给出的步骤开发 ETL 流程 –

步骤 1 – 单击创建数据存储

创建数据存储

将打开一个新窗口。

步骤 2 – 输入数据存储名称、数据存储类型和数据库类型,如下所示。您可以选择不同的数据库作为源系统,如下面的屏幕截图所示。

数据存储名称类型

步骤 3 – 要使用 ECC 系统作为数据源,请选择 SAP Applications 作为数据存储类型。输入用户名和密码,然后在高级选项卡上,输入系统编号和客户端编号。

ECC系统

步骤 4 – 单击确定,数据存储将添加到本地对象库列表中。如果展开 Datastore,它不会显示任何表。

本地对象库

步骤 5 – 要从 ECC 系统中提取任何表以加载到目标系统上,右键单击表 → 按名称导入。

提取任何表

步骤 6 – 输入表名并单击导入这里使用了Table–Mara,它是ECC系统中的默认表。

表-玛拉

步骤 7 – 以类似的方式,为目标系统创建一个数据存储在此示例中,HANA 用作目标系统。

HANA 目标系统

单击“确定”后,此Datastore将添加到本地对象库中,其中将没有表。

创建 ETL 流

要创建 ETL 流,请创建一个新项目。

步骤 1 – 单击选项Create Project输入项目名称并单击创建它将被添加到项目区域。

项目区域

步骤 2 – 右键单击​​项目名称并创建一个新的批处理作业/实时作业。

新建批处理作业

步骤 3 – 输入作业名称,然后按 Enter。您必须为此添加工作流和数据流。选择工作流并单击工作区以添加到作业。输入工作流的名称并双击它以添加到项目区域。

步骤 4 – 以类似的方式,选择数据流并将其带到项目区域。输入数据流的名称,双击将其添加到新项目下。

数据流项目区

步骤 5 – 现在将数据存储下的源表拖到工作区。现在您可以将具有相似数据类型的目标表拖动到工作区,或者您可以创建一个新的模板表。

要创建新模板表,请右键单击源表,添加新 → 模板表。

新建模板表

步骤 6 – 输入表名并从列表中选择数据存储作为目标数据存储。所有者名称表示必须在其中创建表的架构名称。

目标数据存储

该表将被添加到具有该表名的工作区。

步骤 7 – 将行从源表拖到目标表​​。单击顶部的“全部保存”选项。

源目标表

现在您可以使用数据服务管理控制台来安排作业,或者您可以通过右键单击作业名称并执行来手动执行它。

作业名称执行

SAP BODS – 数据存储概述

数据存储用于在应用程序和数据库之间建立连接。您可以直接创建 Datastore,也可以借助适配器创建。数据存储允许应用程序/软件从应用程序或数据库读取或写入元数据,并写入该数据库或应用程序。

在 Business Objects Data Services 中,您可以使用 Datastore 连接到以下系统 –

  • 大型机系统和数据库
  • 带有用户编写的适配器的应用程序和软件
  • SAP 应用程序、SAP BW、Oracle 应用程序、Siebel 等。

SAP Business Objects Data Services 提供了使用Attunity Connector连接到大型机接口的选项使用Attunity,将数据存储连接到下面给出的源列表 –

  • 用于 OS/390 的 DB2 UDB
  • 用于 OS/400 的 DB2 UDB
  • IMS/数据库
  • VSAM
  • 阿达巴斯
  • OS/390 和 OS/400 上的平面文件

Attunity 连接器

使用 Attunity 连接器,您可以借助软件连接到大型机数据。该软件需要使用 ODBC 接口手动安装在大型机服务器和本地客户端作业服务器上。

输入主机位置、端口、Attunity 工作区等详细信息。

为数据库创建数据存储

要为数据库创建 Datastore,请按照以下步骤操作。

步骤 1 – 输入数据存储名称、数据存储类型和数据库类型,如下图所示。您可以选择不同的数据库作为列表中给出的源系统。

甲骨文应用

步骤 2 – 要使用 ECC 系统作为数据源,请选择 SAP Applications 作为数据存储类型。输入用户名和密码。单击高级选项卡并输入系统编号和客户端编号。

HANA 用户

步骤 3 – 单击确定,数据存储将添加到本地对象库列表中。如果展开数据存储区,则不会显示任何表。

SAP BODS – 更改数据存储

在本章中,我们将学习如何编辑或更改数据存储区。要更改或编辑数据存储,请按照以下步骤操作。

步骤 1 – 要编辑数据存储,请右键单击数据存储名称,然后单击“编辑”。它将打开数据存储编辑器。

数据存储编辑器

您可以编辑当前数据存储配置的连接信息。

步骤 2 – 单击高级按钮,您可以编辑客户端编号、系统 ID 和其他属性。

步骤 3 – 单击编辑选项以添加、编辑和删除配置。

编辑选项

步骤 4 – 单击确定,更改将被应用。

SAP BODS – 内存数据存储

您可以使用内存作为数据库类型来创建数据存储。Memory Datastores 用于提高实时作业中数据流的性能,因为它将数据存储在内存中以方便快速访问,并且不需要转到原始数据源。

内存数据存储用于在存储库中存储内存表模式。这些内存表从关系数据库中的表或使用分层数据文件(如 XML 消息和 IDoc)获取数据。内存表在作业执行之前一直保持活动状态,并且内存表中的数据不能在不同的实时作业之间共享。

创建内存数据存储

要创建内存数据存储,请按照以下步骤操作。

步骤 1 – 单击创建数据存储并输入数据存储的名称“Memory_DS_TEST”内存表与普通的 RDBMS 表一起呈现,并且可以通过命名约定来标识。

步骤 2 – 在数据存储类型中,选择数据库,在数据库类型中选择内存单击确定。

选择内存

第 3 步– 现在转到项目 → 新建 → 项目,如下面的屏幕截图所示。

新项目

步骤 4 – 通过右键单击创建新作业。添加工作流和数据流,如下所示。

创建新工作

步骤 5 – 选择模板表并拖放到工作区。将打开创建表窗口。

创建表格窗口

步骤 6 – 输入表的名称,然后在数据存储中,选择内存数据存储。如果您需要系统生成的行 ID,请选中创建行 ID复选框。单击确定。

步骤 7 – 将此内存表连接到数据流,然后单击顶部的全部保存

内存表数据流

作为源和目标的内存表

使用内存表作为目标 –

步骤 1 – 转到本地对象库,单击数据存储选项卡。展开内存数据存储 → 展开表。

步骤 2 – 选择要用作源表或目标表的内存表并将其拖到工作流程中。将此内存表连接到数据流中的源或目标。

步骤 3 – 单击保存按钮保存作业。

SAP BODS – 链接数据存储

有各种数据库供应商,它们只提供从一个数据库到另一个数据库的单向通信路径。这些路径称为数据库链接。在 SQL Server 中,链接服务器允许从一个数据库到另一个数据库的单向通信路径。

例子

考虑一个名为“Product”的本地数据库服务器存储数据库链接,以访问名为Customer 的远程数据库服务器上的信息现在,连接到远程数据库服务器 Customer 的用户无法使用相同的链接访问数据库服务器 Product 中的数据。连接到“客户”的用户应该在服务器的数据字典中有一个单独的链接来访问产品数据库服务器中的数据。

两个数据库之间的这种通信路径称为数据库链接。在这些链接数据库关系之间创建的数据存储称为链接数据存储。

可以将一个数据存储连接到另一个数据存储并导入外部数据库链接作为数据存储的选项。

数据存储 另一个数据存储

SAP BODS – 适配器数据存储

Adapter Datastore 允许您将应用程序元数据导入存储库。您可以访问应用程序元数据并在不同应用程序和软件之间移动批处理和实时数据。

有一个适配器软件开发工具包 – SAP 提供的 SDK,可用于开发定制的适配器。这些适配器通过适配器数据存储显示在数据服务设计器中。

要使用适配器提取或加载数据,您应该为此至少定义一个数据存储。

适配器数据存储 – 定义

按照给定的步骤定义自适应数据存储 –

步骤 1 – 单击创建数据存储→ 输入数据存储的名称。选择数据存储类型作为适配器。从列表和适配器实例名称中选择作业服务器,然后单击确定

创建新数据存储

浏览应用程序元数据

右键单击数据存储名称,然后单击打开它将打开一个显示源元数据的新窗口。单击 + 号检查对象,然后右键单击要导入的对象。

SAP BODS – 文件格式

文件格式被定义为一组属性来呈现平面文件的结构。它定义了元数据结构。当数据存储在文件中而不是数据库中时,文件格式用于连接到源数据库和目标数据库。

文件格式用于以下功能 –

  • 创建文件格式模板来定义文件的结构。
  • 在数据流中创建特定的源和目标文件格式。

以下类型的文件可用作使用文件格式的源文件或目标文件 –

  • 定界
  • SAP传输
  • 非结构化文本
  • 非结构化二进制
  • 固定宽度

文件格式编辑器

文件格式编辑器用于设置文件格式模板以及源文件和目标文件格式的属性。

文件格式编辑器中提供以下模式 –

  • 新模式– 它允许您创建新的文件格式模板。

  • 编辑模式– 它允许您编辑现有的文件格式模板。

  • 源模式– 它允许您编辑特定源文件的文件格式。

  • 目标模式– 它允许您编辑特定目标文件的文件格式。

文件格式编辑器有三个工作区 –

  • 属性值– 用于编辑文件格式属性的值。

  • 列属性– 用于编辑和定义文件中的列或字段。

  • 数据预览– 用于查看设置如何影响样本数据。

创建文件格式

要创建文件格式,请按照以下步骤操作。

步骤 1 – 转到本地对象库 → 平面文件。

平面文件

步骤 2 – 右键单击​​平面文件选项 → 新建。

新平面文件

文件格式编辑器的新窗口将打开。

步骤 3 – 选择文件格式的类型。输入描述文件格式模板的名称。对于分隔和固定宽度的文件,您可以使用自定义传输程序读取和加载。输入其他属性来描述此模板所代表的文件。

您还可以在列属性工作区中为少数特定文件格式指定列的结构。定义所有属性后,单击“保存”按钮。

列的结构

编辑文件格式

要编辑文件格式,请按照以下步骤操作。

步骤 1 – 在本地对象库中,转到格式选项卡。

格式选项卡

步骤 2 – 选择要编辑的文件格式。右键单击编辑选项。

编辑文件格式

在文件格式编辑器中进行更改,然后单击保存按钮。

SAP BODS – COBOL Copybook 文件格式

您可以创建 COBOL Copybook 文件格式,这会减慢您仅创建该格式的速度。将格式添加到数据流后,您可以稍后配置源。

您可以同时创建文件格式并将其连接到数据文件。按照下面给出的步骤操作。

步骤 1 – 转到本地对象库 → 文件格式 → COBOL Copybooks。

COBOL 字帖

步骤 2 – 右键单击新建选项。

新的 COBOL 字帖

步骤 3 – 输入格式名称。转到格式选项卡 → 选择要导入的 COBOL 字帖。文件的扩展名是.cpy

格式名称

步骤 4 – 单击确定这种文件格式被添加到本地对象库中。COBOL Copybook Schema 名称对话框打开。如果需要,重命名架构并单击OK

从数据库表中提取数据

通过使用数据库数据存储,您可以从数据库中的表和函数中提取数据。当您为元数据执行数据导入时,Tool允许您编辑列名称、数据类型、描述等。

您可以编辑以下对象 –

  • 表名
  • 列名
  • 表格说明
  • 列描述
  • 列数据类型
  • 列内容类型
  • 表属性
  • 首要的关键
  • 所有者姓名

导入元数据

要导入元数据,请按照以下步骤操作 –

步骤 1 – 转到本地对象库 → 转到要使用的数据存储。

转到数据存储

步骤 2 – 右键单击​​数据存储 → 打开。

在工作区中,将显示可用于导入的所有项目。选择要为其导入元数据的项目。

导入元数据

在对象库中,转到数据存储以查看导入对象的列表。

从 Excel 工作簿中提取数据

您可以使用数据服务中的文件格式将 Microsoft Excel 工作簿用作数据源。Excel 工作簿应该在 Windows 文件系统或 Unix 文件系统上可用。

Sr.No. 访问和描述
1

In the object library, click the Formats tab.

Excel 工作簿形式描述了 Excel 工作簿中定义的结构(以 .xls 扩展名表示)。您将 Excel 数据范围的格式模板存储在对象库中。您可以使用模板来定义数据流中特定源的格式。SAP Data Services 仅将 Excel 工作簿作为源(而不是目标)访问。

右键单击新建选项并选择Excel 工作簿,如下面的屏幕截图所示。

Excel 工作簿

从 XML FILE DTD、XSD 中提取数据

您还可以导入 XML 或 DTD 模式文件格式。

步骤 1 – 转到本地对象库 → 格式选项卡 → 嵌套架构。

嵌套模式

第 2 步– 指向新建(您可以选择 DTD 文件或 XML 架构或 JSON 文件格式)。输入文件格式的名称并选择要导入的文件。单击确定。

从 COBOL Copybook 中提取数据

您还可以在 COBOL 字帖中导入文件格式。转到本地对象库 → 格式 → COBOL Copybooks。

格式化 COBOL 字帖

SAP BODS – 数据流介绍

数据流用于从源系统向目标系统提取、转换和加载数据。所有的转换、加载和格式化都发生在数据流中。

在项目中定义数据流后,可以将其添加到工作流或 ETL 作业中。数据流可以使用参数发送或接收对象/信息。数据流以DF_Name格式命名

DF名称

数据流示例

让我们假设您要在 DW 系统中加载一个事实表,其中包含来自源系统中两个表的数据。

数据流包含以下对象 –

  • 两个源表
  • 连接两个表并在查询转换中定义
  • 目标表

数据流对象

可以将三种类型的对象添加到数据流中。他们是 –

  • 来源
  • 目标
  • 变换

步骤 1 – 转到本地对象库并将两个表拖到工作区。

桌子工作空间

步骤 2 – 要添加查询转换,请从右侧工具栏中拖动。

查询转换

步骤 3 – 通过右键单击查询框 → 添加新 → 新模板表,连接两个表并创建模板目标表。

模板目标表

步骤 4 – 输入要在其下创建表的目标表的名称、数据存储名称和所有者(架构名称)。

第 5 步– 将目标表拖到前面并将其加入查询转换。

加入查询转换

传递参数

您还可以将不同的参数传入和传出数据流。在将参数传递给数据流时,数据流中的对象会引用这些参数。使用参数,您可以将不同的操作传递给数据流。

示例 – 假设您已将参数输入到有关上次更新的表中。它允许您仅提取自上次更新以来修改的行。

SAP BODS – 数据流更改属性

您可以更改数据流的属性,例如执行一次、缓存类型、数据库链接、并行度等。

步骤 1 – 要更改数据流的属性,请右键单击数据流 → 属性

数据流属性

您可以为数据流设置各种属性。属性如下。

Sr. No. 属性和描述
1

Execute only once

当您指定数据流只应执行一次时,批处理作业将永远不会在数据流成功完成后重新执行该数据流,除非数据流包含在作为重新执行和重新执行的恢复单元的工作流中尚未在恢复单元以外的其他地方成功完成。如果父工作流是恢复单元,建议您不要将数据流标记为仅执行一次。

2

Use database links

数据库链接是一个数据库服务器和另一个数据库服务器之间的通信路径。数据库链接允许本地用户访问远程数据库上的数据,该数据库可以位于相同或不同数据库类型的本地或远程计算机上。

3

Degree of parallelism

并行度 (DOP) 是数据流的一个属性,它定义数据流中的每个变换复制多少次以处理并行数据子集。

4

Cache type

您可以缓存数据以提高连接、分组、排序、过滤、查找和表比较等操作的性能。您可以为数据流属性窗口中的缓存类型选项选择以下值之一 –

  • In-memory – 如果您的数据流处理可以放入可用内存的少量数据,请选择此值。

  • Pageable – 此值为默认值。

第 2 步– 更改诸如仅执行一次、并行度和缓存类型等属性。

更改属性

源和目标对象

数据流可以使用以下对象直接提取或加载数据 –

  • 源对象– 源对象定义从中提取数据或读取数据的源。

  • 目标对象– 目标对象定义加载或写入数据的目标。

可以使用以下类型的源对象,并且对源对象使用不同的访问方法。

Table 使用关系数据库中使用的列和行格式化的文件 直接或通过适配器
Template table 在另一个数据流中创建并保存的模板表(开发中使用) 直接的
File 分隔或固定宽度的平面文件 直接的
Document 具有特定于应用程序格式的文件(SQL 或 XML 解析器不可读) 通过适配器
XML file 用 XML 标签格式化的文件 直接的
XML message 在实时作业中用作源 直接的

可以使用以下 Target 对象,并且可以应用不同的访问方法。

Table 使用关系数据库中使用的列和行格式化的文件 直接或通过适配器
Template table 格式基于前面转换的输出的表(用于开发) 直接的
File 分隔或固定宽度的平面文件 直接的
Document 具有特定于应用程序格式的文件(SQL 或 XML 解析器不可读) 通过适配器
XML file 用 XML 标签格式化的文件 直接的
XML template file 格式基于前面转换输出的 XML 文件(用于开发,主要用于调试数据流) 直接的

SAP BODS – 工作流介绍

工作流用于确定执行过程。工作流的主要目的是准备执行数据流并在数据流执行完成后设置系统状态。

ETL 项目中的批处理作业与工作流类似,唯一的区别是作业没有参数。

可以将各种对象添加到工作流程中。他们是 –

  • 工作流程
  • 数据流
  • 脚本
  • 循环
  • 使适应
  • 尝试或捕捉块

您还可以使工作流调用其他工作流或工作流可以调用自身。

注意– 在工作流中,步骤按从左到右的顺序执行。

工作流程示例

假设有一个您想要更新的事实表,并且您已经使用转换创建了一个数据流。现在,如果要从源系统移动数据,则必须检查事实表的最后修改,以便仅提取上次更新后添加的行。

为了实现这一点,您必须创建一个脚本,该脚本确定上次更新日期,然后将其作为输入参数传递给数据流。

您还必须检查到特定事实表的数据连接是否处于活动状态。如果它不活动,您需要设置一个 catch 块,它会自动向管理员发送一封电子邮件以通知此问题。

SAP BODS – 创建工作流

可以使用以下方法创建工作流 –

  • 对象库
  • 工具面板

使用对象库创建工作流

要使用对象库创建工作流,请按照以下步骤操作。

步骤 1 – 转到对象库 → 工作流选项卡。

工作流选项卡

步骤 2 – 右键单击新建选项。

右键单击选项

步骤 3 – 输入工作流的名称。

使用工具选项板创建工作流

要使用工具选项板创建工作流,请单击右侧的图标并在工作空间中拖动工作流。

您还可以通过转到工作流的属性设置只执行一次工作流。

条件句

您还可以向工作流程添加条件。这允许您在工作流上实现 If/Else/Then 逻辑。

Sr.No. 条件和说明
1

If

计算结果为 TRUE 或 FALSE 的布尔表达式。您可以使用函数、变量和标准运算符来构造表达式。

2

Then

如果If表达式的计算结果为 TRUE,则要执行的工作流元素

3

Else

(可选)如果If表达式的计算结果为 FALSE,则要执行的工作流元素

定义条件

步骤 1 – 转到工作流 → 单击右侧工具面板上的条件图标。

条件图标

步骤 2 – 双击 Conditional 的名称以打开If-Then-Else条件编辑器。

条件编辑器

步骤 3 – 输入控制条件的布尔表达式。单击确定。

布尔表达式

步骤 4根据 IF 条件中的表达式拖动要执行Then 和 Else窗口的数据流

然后和其他

完成条件后,您可以调试和验证条件。

SAP BODS – 转换类型

转换用于将数据集作为输入进行操作并创建一个或多个输出。有多种转换可用于数据服务。转换类型取决于购买的版本和产品。

以下类型的转换可用 –

数据整合

数据集成转换用于数据提取、转换和加载到 DW 系统。它确保数据完整性并提高开发人员的工作效率。

  • 数据生成器
  • 数据传输
  • 生效日期
  • Hierarchy_flattening
  • 表_比较等

数据质量

数据质量转换用于提高数据质量。您可以从源系统应用解析、校正、标准化、丰富的数据集。

  • 联系
  • 数据清理
  • DSF2 Walk Sequencer等

平台

平台用于数据集的移动。使用它,您可以从两个或多个数据源生成、映射和合并行。

  • 案件
  • 合并
  • 查询等

文本数据处理

文本数据处理允许您处理大量文本数据。

SAP BODS – 向数据流添加转换

在本章中,您将看到如何向数据流添加转换

步骤 1 – 转到对象库 → 转换选项卡。

转换选项卡

步骤 2 – 选择要添加到数据流的转换。如果您添加具有选择配置选项的转换,则会打开提示。

步骤 3 – 绘制数据流连接以将源连接到转换。

步骤 4 – 双击转换名称以打开转换编辑器。

转换编辑器

定义完成后,单击“确定”关闭编辑器。

SAP BODS – 查询转换

这是数据服务中最常用的转换,您可以执行以下功能 –

  • 从源头过滤数据
  • 连接来自多个源的数据
  • 对数据执行函数和转换
  • 从输入到输出模式的列映射
  • 分配主键
  • 添加新的列、模式和函数导致输出模式

由于查询转换是最常用的转换,因此在工具选项板中为此查询提供了快捷方式。

要添加查询转换,请按照以下步骤操作 –

步骤 1 – 单击查询转换工具面板。单击“数据流”工作区上的任意位置。将此连接到输入和输出。

连接输入输出

当您双击查询转换图标时,它会打开一个用于执行查询操作的查询编辑器。

查询转换中存在以下区域 –

  • 输入模式
  • 输出模式
  • 参数

输入和输出模式包含列、嵌套模式和函数。Schema In 和 Schema Out 显示转换中当前选择的模式。

输入输出模式

要更改输出架构,请在列表中选择架构,右键单击并选择 Make Current。

更改输出架构

数据质量转换

数据质量转换不能直接连接到包含嵌套表的上游转换。要连接这些转换,您应该在嵌套表转换和数据质量转换之间添加查询转换或 XML 管道转换。

如何使用数据质量转换?

步骤 1 – 转到对象库 → 变换选项卡

库转换选项卡

步骤 2 – 展开数据质量转换并添加要添加到数据流的转换或转换配置。

转换配置

步骤 3 – 绘制数据流连接。双击转换的名称,它会打开转换编辑器。在输入架构中,选择要映射的输入字段。

注意– 要使用关联转换,您可以将用户定义的字段添加到输入选项卡。

文本数据处理转换

文本数据处理转换允许您从大量文本中提取特定信息。您可以搜索特定于组织的事实和实体,例如客户、产品和财务事实。

此转换还检查实体之间的关系并允许提取。使用文本数据处理提取的数据可用于商业智能、报告、查询和分析。

实体提取转换

在数据服务中,文本数据处理是在实体提取的帮助下完成的,实体提取从非结构化数据中提取实体和事实。

这涉及分析和处理大量文本数据、搜索实体、将它们分配到适当的类型并以标准格式呈现元数据。

实体提取转换可以从任何文本、HTML、XML 或某些二进制格式(如 PDF)内容中提取信息并生成结构化输出。您可以根据工作流程以多种方式使用输出。您可以将其用作另一个转换的输入或写入多个输出源,例如数据库表或平面文件。输出以 UTF-16 编码生成。

实体提取转换可用于以下场景 –

  • 从大量文本中查找特定信息。

  • 从具有现有信息的非结构化文本中查找结构化信息以建立新的联系。

  • 产品质量报告和分析。

TDP 和数据清理之间的差异

文本数据处理用于从非结构化文本数据中查找相关信息。但是,数据清理用于标准化和清理结构化数据。

Parameters 文本数据处理 数据清理
Input Type 非结构化数据 结构化数据
Input Size 超过 5KB 小于 5KB
Input Scope 具有多种变化的广泛领域 变化有限
Potential Usage 来自非结构化数据的潜在有意义的信息 存储到 Repository 的数据质量
Output 以实体、类型等形式创建注释。输入不变 创建标准化字段,更改输入

SAP BODS – 数据服务概述

数据服务管理包括创建实时和批处理作业、调度作业、嵌入式数据流、变量和参数、恢复机制、数据分析、性能调整等。

实时工作

您可以在数据服务设计器中创建实时作业来处理实时消息。像批处理作业一样,实时作业提取数据、转换和加载数据。

每个实时作业都可以从单个消息中提取数据。您还可以从其他来源(如表或文件)中提取数据。

与批处理作业不同,实时作业不是在触发器的帮助下执行的。它们由管理员作为实时服务执行。实时服务等待来自访问服务器的消息。访问服务器接收此消息并将其传递给实时服务,实时服务被配置为处理消息类型。实时服务执行消息并返回结果并继续处理消息,直到它们得到停止执行的指令。

实时与批处理作业

像分支和控制逻辑这样的转换在实时作业中使用得更频繁,而设计器中的批处理作业则不是这种情况。

与批处理作业不同,实时作业不会响应调度或内部触发器而执行。

创建实时作业

可以使用相同的对象(如数据流、工作流、循环、条件、脚本等)创建实时作业。

您可以使用以下数据模型来创建实时作业 –

  • 单一数据流模型
  • 多数据流模型

单一数据流模型

您可以在其实时处理循环中创建具有单个数据流的实时作业,它包括单个消息源和单个消息目标。

使用单一数据模型创建实时作业 –

要使用单个数据模型创建实时作业,请按照给定的步骤操作。

步骤 1 – 转到数据服务设计器 → 新建项目 → 项目 → 输入项目名称

服务设计师

步骤 2 – 右键单击​​项目区域中的空白区域 → 新建实时作业。

实时作业

工作区显示实时作业的两个组成部分 –

  • RT_Process_begins
  • Step_ends

它显示了实时作业的开始和结束。

始末

步骤 3 – 要使用单个数据流创建实时作业,请从右侧窗格的工具面板中选择数据流并将其拖到工作区。

单击循环内部,可以在实时处理循环中使用一个消息源和一个消息目标。将开始和结束标记连接到数据流。

实时循环

步骤 4 – 根据需要在数据流中添加配置对象并保存作业。

多数据流模型

这允许您在其实时处理循环中创建具有多个数据流的实时作业。您还需要确保每个数据模型中的数据在移动到下一条消息之前都得到了完全处理。

测试实时作业

您可以通过将示例消息作为来自文件的源消息传递来测试实时作业。您可以检查数据服务是否生成了预期的目标消息。

为确保您的作业为您提供预期的结果,您可以在查看数据模式下执行作业。使用此模式,您可以捕获输出数据以确保您的实时作业正常工作。

嵌入式数据流

嵌入式数据流称为数据流,它是从设计中的另一个数据流调用的。嵌入的数据流可以包含多个源和目标,但只有一个输入或输出将数据传递给主数据流。

可以使用以下类型的嵌入式数据流 –

  • 一个输入– 嵌入的数据流添加在数据流的末尾。

  • 一个输出– 嵌入的数据流添加在数据流的开头。

  • 无输入或输出– 复制现有数据流。

嵌入式数据流可用于以下目的 –

  • 简化数据流显示。

  • 如果要保存流逻辑并在其他数据流中重用。

  • 对于调试,您可以在其中创建数据流部分作为嵌入数据流并单独执行它们。

嵌入式数据流

SAP BODS – 创建嵌入式数据流

您可以在现有数据流中选择一个对象。有两种方法可以创建嵌入式数据流。

选项1

右键单击对象并选择使其成为嵌入式数据流。

使嵌入式数据流

选项 2

将完整和验证数据流从对象库拖到工作空间中的开放数据流中。接下来,打开已经创建的数据流。选择要用作输入和输出端口的对象,然后单击该对象的“制作端口”。

点击制作端口

数据服务将该对象添加为嵌入式数据流的连接点。

变量和参数

您可以在数据流和工作流中使用局部和全局变量,这为设计作业提供了更大的灵活性。

主要特点是 –

  • 变量的数据类型可以是数字、整数、十进制、日期或文本字符串(如字符)。

  • 变量可以在数据流和工作流中用作Where子句中的函数

  • 数据服务中的局部变量仅限于创建它们的对象。

  • 全局变量仅限于创建它们的作业。使用全局变量,您可以在运行时更改默认全局变量的值。

  • 在工作流和数据流中使用的表达式称为参数

  • 工作流和数据流中的所有变量和参数都显示在变量和参数窗口中。

要查看变量和参数,请按照以下步骤操作 –

转到工具 → 变量。

变量和参数

显示一个新窗口变量和参数它有两个选项卡 – 定义和调用。

定义和调用

定义选项卡允许您创建和查看变量和参数。您可以在工作流和数据流级别使用局部变量和参数。全局变量可以在作业级别使用。

Job

局部变量

全局变量

作业中的脚本或条件

作业中的任何对象

Work flow

局部变量

参数

此工作流或使用参数向下传递到其他工作流或数据流。

父对象传递局部变量。工作流还可以将变量或参数返回给父对象。

Data flow

参数

数据流中的 WHERE 子句、列映射或函数。数据流。数据流不能返回输出值。

在调用选项卡中,您可以看到为父对象定义中的所有对象定义的参数名称。

定义局部变量

要定义局部变量,请打开实时作业。

步骤 1 – 转到工具 → 变量。将打开一个新的变量和参数窗口。

步骤 2 – 转到变量 → 右键单击​​ → 插入

变量插入

它将创建一个新参数$NewVariable0

步骤 3 – 输入新变量的名称。从列表中选择数据类型。

选择数据类型

定义后,关闭窗口。以类似的方式,您可以定义数据流和工作流的参数。

数据流和工作流

调试与恢复机制

如果您的作业没有成功运行,您应该修复错误并重新运行该作业。如果作业失败,则可能会加载、更改或部分加载某些表。您需要重新运行作业以获取所有数据并删除任何重复或丢失的数据。

可用于恢复的两种技术如下 –

  • 自动恢复– 这允许您在恢复模式下运行不成功的作业。

  • 手动恢复– 这允许您重新运行作业,而无需考虑之前的部分重新运行。

在 Designer 中启用恢复选项的情况下运行作业

步骤 1 – 右键单击​​作业名称 → 执行。

单击作业名称

步骤 2 – 保存所有更改并执行 → 是。

步骤 3 – 转到执行选项卡 → 启用恢复复选框。如果未选中此框,则如果作业失败,数据服务将不会恢复该作业。

启用恢复复选框

从 Designer 以恢复模式运行作业

步骤 1 – 右键单击​​并执行上述作业。保存更改。

步骤 2 – 转到执行选项。您必须确保选中从上次失败的执行框中恢复选项

注意– 如果尚未执行作业,则未启用此选项。这称为失败作业的自动恢复。

自动恢复

数据评估和数据分析

数据服务设计器提供了数据分析功能来确保和改进源数据的质量和结构。

数据分析器允许您 –

  • 查找源数据、验证和纠正措施以及源数据质量中的异常情况。

  • 定义源数据的结构和关系,以便更好地执行作业、工作流和数据流。

  • 查找源和目标系统的内容以确定您的作业返回预期结果。

Data Profiler 提供 Profiler 服务器执行的以下信息 –

列分析

  • 基本分析– 包括最小值、最大值、平均值等信息。

  • 详细分析– 包括不同计数、不同百分比、中位数等信息。

关系分析

  • 您为其定义关系的两列之间的数据异常。

数据分析功能可用于来自以下数据源的数据 –

  • 数据库服务器
  • 甲骨文
  • 数据库2
  • Attunity 连接器
  • Sybase IQ
  • Teradata

连接到 Profiler 服务器

连接到配置文件服务器 –

步骤 1 – 转到工具 → Profiler 服务器登录

探查器服务器登录

步骤 2 – 输入详细信息,例如系统、用户名、密码和身份验证。

步骤 3 – 单击登录按钮。

连接后,将显示分析器存储库列表。选择存储库并单击连接

SAP BODS – 调优技术

ETL 作业的性能取决于您使用 Data Services 软件的系统、移动次数等。

还有各种其他因素会影响 ETL 任务的性能。他们是 –

  • 数据库 – 源数据库应设置为快速执行Select语句。这可以通过增加数据库 I/O 的大小、增加共享缓冲区的大小以缓存更多数据以及不允许小表并行等来实现。

  • 源操作系统– 源操作系统应配置为从磁盘快速读取数据。将预读协议设置为 64KB。

  • 目标数据库– 目标数据库必须配置为快速执行插入更新这可以通过 –

    • 禁用存档日志记录。
    • 禁用所有表的重做日志记录。
    • 最大化共享缓冲区的大小。
  • 目标操作系统– 必须配置目标操作系统才能快速将数据写入磁盘。您可以打开异步 I/O 以使输入/输出操作尽可能快。

  • 网络– 网络带宽应该足以将数据从源系统传输到目标系统。

  • BODS 存储库数据库– 为了提高 BODS 作业的性能,可以执行以下操作 –

    • 监控采样率– 如果您在 ETL 作业中处理大量数据集,请将采样率监控为更高的值,以减少对日志文件的 I/O 调用次数,从而提高性能。

    • 如果在作业服务器上配置了病毒扫描,您还可以从病毒扫描中排除数据服务日志,因为它会导致性能下降

  • 作业服务器操作系统– 在数据服务中,作业中的一个数据流启动一个“al_engine”进程,该进程启动四个线程。为了获得最佳性能,请考虑一次为每个 CPU运行一个“al_engine”进程的设计作业服务器操作系统应该以所有线程都分布到所有可用 CPU 的方式进行调整。

SAP BODS – 中央与本地存储库

SAP BO 数据服务支持多用户开发,其中每个用户都可以在自己的本地存储库中处理应用程序。每个团队使用中央存储库来保存应用程序的主副本以及应用程序中对象的所有版本。

主要特点是 –

  • 在 SAP Data Services 中,您可以创建一个中央存储库来存储应用程序的团队副本。它包含在本地存储库中也可用的所有信息。但是,它只是为对象信息提供了一个存储位置。要进行任何更改,您应该需要在本地存储库中工作。

  • 您可以将对象从中央存储库复制到本地存储库。但是,如果您必须进行任何更改,则需要在中央存储库中检出该对象。因此,其他用户无法在中央存储库中检出该对象,因此,他们无法对同一对象进行更改。

  • 对对象进行更改后,您需要检入该对象。它允许数据服务在中央存储库中保存新修改的对象。

  • 数据服务允许具有本地存储库的多个用户同时连接到中央存储库,但只有一个用户可以检出并更改特定对象。

  • 中央存储库还维护每个对象的历史记录。如果更改未按要求产生,它允许您恢复到对象的先前版本。

多个用户

SAP BO 数据服务允许多个用户同时使用同一个应用程序。在多用户环境中应考虑以下术语 –

Sr.No. 多用户和描述
1

Highest level object

最高级别的对象是不依赖于对象层次结构中的任何对象的对象。例如,如果作业 1 由工作流 1 和数据流 1 组成,则作业 1 是最高级别的对象。

2

Object dependents

对象依赖项是在层次结构中与最高级别对象相关联的对象。例如,如果作业 1 由包含数据流 1 的工作流 1 组成,则工作流 1 和数据流 1 都是作业 1 的从属。此外,数据流 1 是工作流 1 的从属。

3

Object version

对象版本是对象的实例。每次向中央存储库添加或签入对象时,软件都会创建对象的新版本。对象的最新版本是创建的最后或最新版本。


要在多用户环境中更新本地存储库,您可以从中央存储库获取每个对象的最新副本。要编辑对象,您可以使用检出和检入选项。

SAP BODS – 中央存储库安全

可以在中央存储库上应用各种安全参数以确保其安全。

各种安全参数是 –

  • 身份验证– 这仅允许真实用户登录中央存储库。

  • 授权– 这允许用户为每个对象分配不同级别的权限。

  • 审计– 这用于维护对对象所做的所有更改的历史记录。您可以检查所有以前的版本并恢复到旧版本。

创建非安全中央存储库

在多用户开发环境中,始终建议使用中央存储库方法。

按照给定的步骤创建一个非安全的中央存储库 –

步骤 1 – 使用数据库管理系统创建一个数据库,它将充当中央存储库。

第 2 步– 转到存储库管理器。

存储库管理器

步骤 3 – 选择存储库类型为中央。输入数据库详细信息,例如用户名和密码,然后单击创建

存储库类型

步骤 4 – 要定义与中央存储库的连接,工具 → 中央存储库

中央存储库

步骤 5 – 在中央存储库连接中选择存储库,然后单击添加图标。

中央存储库连接

步骤 6 – 输入中央存储库的密码,然后单击“激活”按钮。

创建安全的中央存储库

要创建安全的中央存储库,请转到存储库管理器。选择存储库类型作为中央。单击启用安全检查框。

安全中央存储库

创建多用户环境

为了在多用户环境中成功开发,建议实施一些流程,例如签入和签出。

您可以在多用户环境中使用以下流程 –

  • 过滤
  • 检出对象
  • 撤消签出
  • 检入对象
  • 标记对象

当您向中央存储库添加任何对象、签入、签出和标记对象时,过滤适用。

迁移多用户作业

在 SAP Data Services 中,作业迁移可以应用于不同级别,即应用程序级别、存储库级别、升级级别。

您不能将一个中央存储库的内容直接复制到另一个中央存储库;您需要使用本地存储库。

第一步是将所有对象的最新版本从中央存储库获取到本地存储库。激活要复制内容的中央存储库。添加要从本地存储库复制到中央存储库的所有对象。

中央存储库迁移

如果更新 SAP Data Services 的版本,则还需要更新 Repository 的版本。

迁移中央存储库以升级版本时应考虑以下几点 –

  • 备份所有表和对象的中央存储库。

  • 要维护数据服务中对象的版本,请为每个版本维护一个中央存储库。使用新版本的 Data Services 软件创建新的中央历史记录并将所有对象复制到此存储库。

  • 如果您安装新版本的 Data Services,始终建议您将中央存储库升级到新版本的对象。

  • 将您的本地存储库升级到相同版本,因为中央存储库和本地存储库的不同版本可能无法同时运行。

  • 在迁移中央存储库之前,请检入所有对象。由于您不会同时升级中央和本地存储库,因此需要检入所有对象。将中央存储库升级到更新版本后,您将无法从本地存储库检入对象,该存储库具有旧版本的数据服务。

觉得文章有用?

点个广告表达一下你的爱意吧 !😁