华为云用户手册

数据治理中心 DATAARTS STUDIO-数据架构示例:主题设计

主题设计在本示例中，主题设计如表2所示，说明如下：新建1个主题域分组：城市交通。在主题域分组“城市交通”下，新建4个主题域：行程记录、集团、时空、公共维度。在主题域“行程记录”下，新建4个业务对象：原始记录、标准记录、行程事实、记录统计。在主题域“集团”下，新建1个业务对象：供应商。在主题域“时空”下，新建1个业务对象：时间。在主题域“公共维度”下，新建1个业务对象：公共维度。表2 主题设计信息主题域分组名称（L1）主题域分组编码（L1）主题域名称（L2）主题域编码（L2）业务对象名称（L3）业务对象编码（L3）城市交通 city_traffic 行程记录 stroke_reminder 原始记录 origin_stroke 标准记录 stand_stroke 行程事实 stroke_fact 记录统计 stroke_statistic 集团 people 供应商 vendor 时空 time_location 时间 date 公共维度 public_dimension 公共维度 public_dimension 图4 主题设计操作步骤如下：登录DataArts Studio控制台。找到已创建的DataArts Studio实例，单击实例卡片上的“进入控制台”。在工作空间概览列表中，找到所需要的工作空间，单击“数据架构”，进入数据架构控制台。在数据架构控制台，单击左侧菜单栏的“配置中心”。选择“ 主题流程配置”，使用默认的3层层级。 L1-L7表示主题层级，默认3层，最大7层，最少2层，最后一层是业务对象，其他层级名称可编辑修改。配置中心配置的层级数，将在“主题设计”模块生效。图5 配置主题层级在数据架构控制台，单击左侧菜单栏的“主题设计”，进入相应页面后，单击“新建”创建L1层主题，即主题域分组。图6 新建L1层主题在弹出窗口中，按图6所示填写参数，然后单击“确定”完成主题域分组的创建。主题域分组创建完成后，您需要勾选主题域分组，并单击“发布”，发布主题域分组。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，主题域分组发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图7 发布主题域分组在L1层主题“城市交通”下，依次新建4个L2层主题，即主题域：行程记录、集团、时空、公共维度。以主题域“行程记录”为例，新建主题域的步骤如下，其他主题域也请参照以下步骤进行添加：选中已创建的L1层主题“城市交通”。单击右键，选择“新建”。或者单击右侧的“新建”按钮。图8 创建L2层主题在弹出窗口中，“名称”和“编码”请参照表2中的“主题域名称”和“主题域编码”进行填写，其他参数可根据实际情况进行填写，配置完成后单击“确定”完成主题域的新建。主题域创建完成后，您需要勾选主题域，并单击“发布”，发布主题域。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，主题域发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图9 发布主题域新建业务对象。在主题域“行程记录”下，新建4个业务对象：原始记录、标准记录、行程事实、记录统计。在主题域“集团”下，新建1个业务对象：供应商。在主题域“时空”下，新建1个业务对象：时间。在主题域“公共维度”下，新建1个业务对象：公共维度。以在主题域“行程记录”下新建业务对象“原始记录”为例，新建业务对象的步骤如下，其他业务对象也请参照以下步骤进行添加：选中已创建的L2层主题“行程记录”。单击右键，选择“新建”。或者单击右侧的“新建”按钮。在弹出窗口中，“名称”和“编码”请参照表2中的“业务对象名称”和“业务对象编码”进行填写，其他参数可根据实际情况进行填写，配置完成后单击“确定”完成业务对象新建。业务对象创建完成后，您需要勾选业务对象，并单击“发布”，发布业务对象。在弹出的“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，业务对象发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。图10 发布业务对象

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-数据架构示例:新建数据标准并发布

新建数据标准并发布在本示例中，您需要新建如表7所示的3个数据标准：表7 数据标准目录 *标准名称 *标准编码（自定义） *数据类型数据长度引用码表 *码表字段描述付款方式付款方式 payment_type 长整型(BIGINT) 无付款方式付款方式编码无供应商供应商 vendor 长整型(BIGINT) 无供应商供应商id 无费率费率代码 rate_code 长整型(BIGINT) 无费率代码费率id 无在数据架构控制台，单击左侧导航树中的“数据标准”，进入数据标准页面。首次进入“数据标准”页面，需要定制模板，定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”，如图所示。图17 新建数据标准目录请参考以下步骤，分别新建3个数据标准的目录：付款方式、供应商、费率。在数据标准页面的目录树上方，单击新建目录，然后在弹出框中输入目录名称“付款方式”并选择目录，单击“确定”完成目录的新建。图18 新建数据标准目录请参考以下步骤，分别新建3个数据标准：付款方式、供应商、费率。在数据标准页面的目录树中，选中所需要的目录，然后在右侧页面中单击“新建”。在新建数据标准页面中，3个数据标准可分别参考如下配置，配置完成后单击“保存”。在本示例中，数据标准模板只选取了几个参数，您可以参考配置中心的“标准模板管理”定制数据标准模板。图19 数据标准-付款方式图20 数据标准-供应商图21 数据标准-费率代码返回数据标准页面后，在列表中勾选刚才新建的3个数据标准，然后单击“发布”发布数据标准。在“批量发布”对话框中选择审核人，再单击“确认提交”，等待审核人员审核通过后，数据标准发布成功。如果当前账号具备审核人权限，也可以勾选“自助审批”，直接提交即可以审核通过。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-数据架构示例:添加审核人

添加审核人在数据架构中，数据建模流程中的步骤都需要经过审批，因此，需要先添加审核人。DAYU Administrator角色或该工作空间管理员，具备对应的添加审核人的权限。在DataArts Studio控制台首页，选择实例，单击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。图1 选择数据架构单击左侧导航树中的“配置中心”，进入相应页面后，在“审核人管理”页签，单击“添加”按钮。选择审核人（工作空间管理员或开发者），输入正确的电子邮箱和手机号，单击“确定”完成审核人添加。您也可以添加自己当前账号为审核人，在后续提交审批的相关操作中，支持进行“自助审批”。根据需要，可以添加多个审核人。图2 添加审核人

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置Hive目的端参数

配置Hive目的端参数作业中目的连接为Hive连接时，目的端作业参数如表1所示。表1 Hive作为目的端时的作业参数参数名说明取值样例数据库名称输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 default 表名输入或选择写入数据的目标表名。单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_X 自动创表只有当源端为关系数据库时，才有该参数。表示写入表数据时，用户选择的操作：不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。先删除后创建：CDM先删除“表名”参数中指定的表，然后再重新创建该表。说明：自动建表只同步列注释，表注释不会被同步。自动建表不支持同步主键。不自动创建导入前清空数据选择目的端表中数据的处理方式：是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。是待清空分区 “导入前清空数据”设置为“是”时，呈现此参数。填写待清空分区信息后，表示清空该分区的数据。单分区：year=2020,location=sun; 多分区：['year=2020,location=sun', 'year=2021,location=earth']. 执行Analyze语句数据全部写入完成后会异步执行ANALYZE TABLE语句，用于优化Hive表查询速度，执行的SQL如下：非分区表：ANALYZE TABLE tablename COMPUTE STATISTICS 分区表：ANALYZE TABLE tablename PARTITION(partcol1[=val1], partcol2[=val2], ...) COMPUTE STATISTICS 说明： “执行Analyze语句”参数配置仅用于单表迁移场景。是 Hive作为目的端时，会自动创建存储格式为ORC的表。由于文件格式限制，当前仅支持ORC与Parquet格式写入复杂类型。源端Hive包含array和map类型时，目的端表格式只支持ORC和parquet复杂类型。若目的端表格式为RC和TEXT时，会对源数据进行处理，支持成功写入。因map类型为无序的数据结构，迁移到目的端的数据类型可能跟源端顺序不一致。 Hive作为迁移的目的时，如果存储格式为Textfile，在Hive创建表的语句中需要显式指定分隔符。例如： CREATE TABLE csv_tbl( smallint_value smallint, tinyint_value tinyint, int_value int, bigint_value bigint, float_value float, double_value double, decimal_value decimal(9, 7), timestmamp_value timestamp, date_value date, varchar_value varchar(100), string_value string, char_value char(20), boolean_value boolean, binary_value binary, varchar_null varchar(100), string_null string, char_null char(20), int_null int ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde' WITH SERDEPROPERTIES ( "separatorChar" = "\t", "quoteChar" = "'", "escapeChar" = "\\" ) STORED AS TEXTFILE; 父主题：配置作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置定时任务:周

周 CDM支持配置每几周执行一次作业。重复周期（周）：表示从开始时间起，每多少周执行一次定时任务。触发时间（天）：选择每周几自动执行作业，可单选或多选。有效期：分为开始时间和结束时间。开始时间：表示定时配置生效的时间。结束时间：该参数是可选参数，表示停止自动执行的时间。如果不配置，则表示一直自动执行。图4 重复周期为周例如上图表示：在2023年1月1日0时0分以后，每2周的周二、周六、周日的0时0分，便自动执行作业，直到2023年12月31日23时59分不再自动执行。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置定时任务:小时

小时 CDM支持配置每几小时执行一次作业。重复周期（时）：表示每多少个小时自动执行一次定时任务。触发时间（分）：表示每小时的第几分钟触发定时任务。该参数值取值范围是“0～59”，可配置多个值但不可重复，最多60个，中间使用“,”分隔。如果触发时间不在有效期内，则第一次自动执行的时间取有效期内最近的触发时间，例如：有效期的“开始时间”为“1:20”。 “重复周期（时）”为“3”。 “触发时间（分）”为“10”。有效期：分为开始时间和结束时间。开始时间：表示定时配置生效的时间。结束时间：该参数是可选参数，表示停止自动执行的时间。如果不配置，则表示一直自动执行。图2 重复周期为小时例如上图表示：定时配置从2023年1月1日0时0分生效，0:10时开始第一次自动执行作业，0:30第二次，0:50第三次，以后每2小时重复三次，2023年12月31日23时59分之后不再自动执行。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置定时任务:分钟

分钟 CDM支持配置每几分钟执行一次作业，定时任务周期不建议小于5分钟。开始时间：表示定时配置生效的时间，也是第一次自动执行作业的时间。重复周期（分）：从开始时间起，每多少分钟执行一次作业。结束时间：该参数为可选参数，如果不配置则表示一直自动执行。如果配置了结束时间，则会在该时间停止自动执行作业。图1 重复周期为分钟例如上图表示：从2023年1月1日0时0分开始第一次自动执行作业，每30分钟自动执行一次，2023年12月31日23时59分之后不再自动执行。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置定时任务:月

月 CDM支持配置每几月执行一次作业。重复周期（月）：从开始时间起，每多少个月自动执行定时任务。触发时间（天）：选择每月的几号执行作业，该参数值取值范围是“1～31”，可配置多个值但不可重复，中间使用“,”分隔。有效期：分为开始时间和结束时间。开始时间：表示定时配置生效的时间。其中的时、分、秒也是每次自动执行的时间。结束时间：该参数为可选参数，表示停止自动执行定时任务的时间。如果没有配置，则表示一直自动执行。图5 重复周期为月例如上图表示：从2023年1月1日0点开始，每月5日、25日的0点自动执行作业，直到2023年12月31日23时59分不再自动执行。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HDFS目的端参数

配置HDFS目的端参数作业中目的连接为HDFS连接时，目的端作业参数如表1所示。表1 HDFS作为目的端时的作业参数参数名说明取值样例写入目录写入数据到HDFS服务器的目录。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 /user/output 文件格式写入后的文件格式，可选择以下文件格式： CSV格式：按CSV格式写入，适用于数据表到文件的迁移。二进制格式：选择“二进制格式”时不解析文件内容直接传输，CDM会原样写入文件，不改变原始文件格式，适用于文件到文件的迁移。如果是文件类数据源（FTP/SFTP/HDFS/OBS）之间相互迁移数据，此处的“文件格式”只能选择与源端的文件格式一致。 CSV格式重复文件处理方式当源端为文件类数据源（HTTP/FTP/SFTP/HDFS/OBS）时配置。只有文件名和文件大小都相同才会判定为重复文件。写入时如果出现文件重复，可选择如下处理方式：替换重复文件跳过重复文件停止任务停止任务压缩格式写入文件后，选择对文件的压缩格式。支持以下压缩格式： NONE：不压缩。 DEFLATE：压缩为DEFLATE格式。 GZIP：压缩为GZIP格式。 BZIP2：压缩为BZIP2格式。 LZ4：压缩为LZ4格式。 SNAPPY：压缩为SNAPPY格式。 SNAPPY 换行符文件中的换行符，默认自动识别“\n”、“\r”或“\r\n”。“文件格式”为“二进制格式”时该参数值无效。 \n 字段分隔符文件中的字段分隔符。“文件格式”为“二进制格式”时该参数值无效。 , 使用包围符 “文件格式”为“CSV格式”，才有该参数，用于将数据库的表迁移到文件系统的场景。选择“是”时，如果源端数据表中的某一个字段内容包含字段分隔符或换行符，写入目的端时CDM会使用双引号（"）作为包围符将该字段内容括起来，作为一个整体存储，避免其中的字段分隔符误将一个字段分隔成两个，或者换行符误将字段换行。例如：数据库中某字段为hello,world，使用包围符后，导出到CSV文件的时候数据为"hello,world"。否首行为标题行在迁移表到CSV文件时，CDM默认是不迁移表的标题行，如果该参数选择“是”，CDM在才会将表的标题行数据写入文件。否写入到临时文件将二进制文件先写入到临时文件（临时文件以“.tmp”作为后缀），迁移成功后，再进行rename或move操作，在目的端恢复文件。否作业成功标识文件当作业执行成功时，会在写入目录下生成一个标识文件，文件名由用户指定。不指定时默认关闭该功能。 finish.txt 自定义目录层次支持用户自定义文件的目录层次。例如：【表名】/【年】/【月】/【日】/【数据文件名】. csv - 目录层次指定文件的目录层次，支持时间宏（时间格式为yyyy/MM/dd）。不填默认为不带层次目录。说明：源端为关系型数据库数据源时，目录层次为源端表名+自定义目录，其他场景下为自定义目录。 ${dateformat(yyyy/MM/dd, -1, DAY)} 加密方式 “文件格式”选择“二进制格式”时，该参数才显示。选择是否对写入的数据进行加密：无：不加密，直接写入数据。 AES-256-GCM：使用长度为256byte的AES对称加密算法，目前加密算法只支持AES-256-GCM（NoPadding）。该参数在目的端为加密，在源端为解密。详细使用方法请参见迁移文件时加解密。 AES-256-GCM 数据加密密钥 “加密方式”选择“AES-256-GCM”时显示该参数，密钥由长度64的十六进制数组成。请您牢记这里配置的“数据加密密钥”，解密时的密钥与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 DD0AE00DFECD78BF051BCFDA25BD4E320DB0A7AC75A1F3FC3D3C56A457DCDC1B 初始化向量 “加密方式”选择“AES-256-GCM”时显示该参数，初始化向量由长度32的十六进制数组成。请您牢记这里配置的“初始化向量”，解密时的初始化向量与这里配置的必须一致。如果不一致系统不会报异常，只是解密出来的数据会错误。 5C91687BA886EDCD12ACBC3FF19A3C3F HDFS文件编码只能为“UTF-8”，故HDFS不支持设置文件编码类型。父主题：配置作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-新建衍生指标:新建衍生指标并发布

新建衍生指标并发布在DataArts Studio控制台首页，选择实例，单击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。图1 选择数据架构在数据架构控制台，单击左侧导航树中的“技术指标”，选择“衍生指标”页签进入衍生指标页面。在左侧的主题目录中选中一个主题，然后单击“新建”按钮，开始新建衍生指标。在新建衍生指标页面，根据页面提示配置参数。图2 新建衍生指标表1 新建衍生指标参数说明参数名称说明 *数据表在下拉列表中选择即可。 *所属主题显示所属的主题信息。 *原子指标选择原子指标。统计维度在下拉列表中，选择一个或多个维度。此处只能选择原子指标所关联的事实表中的属性。时间限定在下拉框中选择所需要的时间限定，并选择关联的字段。系统预置了一些时间限定，如果不能满足需求，请参考新建时间限定进行创建。通用限定如需设置通用限定，可以单击“新建”按钮新建一个或多个通用限定。如图3所示，在新建通用限定区域，通过以下配置新建一个通用限定。限定名称：指定通用限定的名称。添加条件(且)：单击该下拉框，选择“且条件”或者“或条件”可以添加相应的条件，然后在字段下拉框中选择一个字段，并根据页面提示设置条件。您可以添加多个条件。当选择的字段是字符串类型（例如string、varchar）时，并且条件选择“属于”或“不属于”时，支持从码表中导入数据。单击“从码表导入”，在码表配置页面，选择“码表”和“码表字段”，单击“确定”。导入的码表值数量不能超过50。在某个条件后面单击删除按钮，可以将该条件删除。添加公式(且)：单击该下拉框，选择“且公式”或者“或公式”可以添加相应的公式，然后再单击“编辑公式”按钮，在弹出对话框中选择所需要的“函数”和“字段”，并设置“表达式”。在某个公式后面单击删除按钮，可以将该公式删除。图3 通用限定告警配置由衍生指标和表达式组成，表达式由告警参数和逻辑运算符组成。在指标运行时，系统将计算出告警条件表达式的结果，并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警，结果为假则不触发质量告警。参数配置完成后，单击“预览”，可以查看该衍生指标的相关信息，并定义名称、编码、数据类型、告警条件和描述等信息。表2 预览衍生指标参数说明参数名称说明名称系统已根据原子指标、统计维度、时间限定等参数自动生成，您也可以自定义。编码系统已根据原子指标、统计维度、时间限定等参数编码自动生成，您也可以自定义。数据类型系统已根据原子指标的数据类型自动生成，您也可以自定义。告警条件告警条件表达式由告警参数和逻辑运算符组成。在指标运行时，系统将计算出告警条件表达式的结果，并根据表达式的结果是否为真来判断是否触发告警。如果表达式的结果为真则触发质量告警，结果为假则不触发质量告警。描述描述信息。支持的长度为0~600个字符。在页面下方，单击“试运行”按钮，然后在弹出框中单击“试运行”按钮，测试所设置的衍生指标是否可以正常运行。如果试运行失败，请根据错误提示定位错误原因，将配置修改正确后，再单击“试运行”按钮进行重试。如果试运行成功，单击“发布”，提交发布审核。在弹出框中，选择审核人，单击“确认提交”，提交审核。如果当前用户已被添加为审核人，则可以勾选“自助审批”，单击“确认提交”后，状态显示为“已发布”。选择审核人时，系统支持选择多个审核人，全部审批通过后，状态才会显示为已发布。如果有任意一个人驳回，则状态为已驳回。（可选）参考步骤2~步骤8，完成其他衍生指标的发布。等待审核人员审核。审核通过后，衍生指标创建完成。衍生指标创建完成后，单击指标名称，可以查看该衍生指标的详情、关系图、发布历史和审核历史。通过关系图，可以查看该衍生指标的血缘图。通过发布历史，可以查看该衍生指标的发布历史和不同发布版本之间的差异对比。

数据治理中心 DATAARTS STUDIO 技术指标
数据治理中心 DATAARTS STUDIO-数据架构概述:模型设计方法概述

模型设计方法概述根据业务需求抽取信息的主要特征，模拟和抽象出一个能够反映业务信息（对象）之间关联关系的模型，即数据模型。数据模型也是可视化的展现企业内部信息如何组织的蓝图。数据模型应满足三方面要求：能比较真实地模拟业务（场景）；容易被人所理解；便于在IT系统中实现。在DataArts Studio数据架构的数据建模过程中，用到的建模方法主要有以下两种：关系建模关系建模是用实体关系（Entity Relationship，ER）模型描述企业业务，它在范式理论上符合3NF，出发点是整合数据，将各个系统中的数据以整个企业角度按主题进行相似性组合和合并，并进行一致性处理，为数据分析决策服务，但是并不能直接用于分析决策。用户在关系建模过程中，可以从以下三个层次去设计关系模型，这三个层次是逐层递进的，先设计概念模型，再进一步细化设计出逻辑模型，最后设计物理模型。概念模型：是从用户的视角，主要从业务流程、活动中涉及的主要业务数据出发，抽象出关键的业务实体，并描述这些实体间的关系。逻辑模型：是概念模型的进一步细化，通过实体、属性和关系勾勒出企业的业务信息蓝图，是IT和业务人员沟通的桥梁。逻辑数据模型是一组规范化的逻辑表结构，逻辑数据模型是根据业务规则确定的，关于业务对象、业务对象的数据项及业务对象之间关系的基本蓝图。物理模型：是在逻辑数据模型的基础上，考虑各种具体的技术实现因素，进行数据库体系结构设计，真正实现数据在数据库中的存放，例如：所选的数据仓库是DWS或MRS_Hive。在关系建模中，系统支持将物理模型和逻辑模型进行区分。例如，选择某个物理模型进入后，左侧的下拉列表里面都是物理模型，与逻辑模型区分开来。维度建模维度建模是从分析决策的需求出发构建模型，它主要是为分析需求服务，因此它重点关注用户如何更快速地完成需求分析，同时具有较好的大规模复杂查询的响应性能。多维模型是由数字型度量值组成的一张事实表连接到一组包含描述属性的多张维度表，事实表与维度表通过主/外键实现关联。典型的维度模型有星形模型，以及在一些特殊场景下使用的雪花模型。在DataArts Studio数据架构中，维度建模是以维度建模理论为基础，抽象出事实和维度，构建维度模型和事实模型，同时对报表需求进行抽象整理出相关指标体系，构建出汇总模型。

数据治理中心 DATAARTS STUDIO 数据架构组件
数据治理中心 DATAARTS STUDIO-数据架构概述:数据架构总览

数据架构总览在DataArts Studio控制台首页，选择对应工作空间的“数据架构”模块，进入数据架构页面，查看“总览”，如图1所示。图1 数据架构总览我的待办显示“我的申请”和“待我审核”的数量。单击每一项上面统计数量将分别跳转到“我的申请”和“待我审核”页面。资产概览显示数据架构中所有对象的总量。单击每个对象名称后的统计数量将跳转到该对象的管理页面。快捷入口显示数据架构数据治理方法的整体流程。单击流程下的具体操作，可以跳转到对应的界面。数据架构流程显示数据架构流程以及与DataArts Studio其他模块间的交互关系。关于数据架构流程的详细描述，请参见数据架构使用流程。将鼠标移至流程图上的对象名称之上，页面上将显示对象的描述信息。对于DataArts Studio已支持的对象，单击对象名称，可跳转至该对象的管理页面。

数据治理中心 DATAARTS STUDIO 数据架构组件
数据治理中心 DATAARTS STUDIO-新建码表:管理码表

管理码表建立好码表后，可以对码表进行查找、编辑、下线或发布等操作。在数据架构控制台，单击左侧导航树中的“码表管理”，进入码表管理页面。您可以对码表进行管理。普通空间均可查询到“公共层空间”目录下创建的码表，“公共层空间”无法反向查询到普通空间目录下创建的码表。普通空间仅对本空间内创建的码表和目录有编辑权限，不支持对“公共层空间”的码表和其所属的目录进行操作，仅能查看引用。图14 码表管理编辑在码表列表中，找到所需要的码表，单击其所在行的“编辑”，即可编辑指定的码表。发布在码表列表中，对于状态为“草稿”或“已驳回”的码表，单击其所在行的“发布”，并在弹出框中选择审核人并单击“确认提交”，即可发布该码表提交审核。等待审核人员审核通过后，码表就发布成功了。如果当前用户已被添加为审核人，则可以勾选“自助审批”，单击“确认提交”后，码表状态显示为“已发布”。下线在码表列表中，对于状态为“已发布”的码表，单击其所在行的“更多-下线”，并在弹出框中选择审核人并单击“确认提交”，即可提交下线申请。等待审核人员审核通过后，码表就下线成功了。填写数值在码表列表中，找到所需要的码表，单击其所在行的“更多-填写数值”，可以快速设置各字段的值。发布历史在码表列表中，找到所需要的码表，单击其所在行的“更多-发布历史”，可以查看码表的发布历史和变更详情，并支持进行版本对比。

数据治理中心 DATAARTS STUDIO 标准设计
数据治理中心 DATAARTS STUDIO-新建码表:通过逆向数据库导入码表

通过逆向数据库导入码表通过逆向数据库，您可以从其他数据源中将一个或多个已创建的数据库表导入到码表目录中，使其变成码表。在数据架构控制台，单击左侧导航树中的“码表管理”，进入码表管理页面。在左侧的码表目录树中，选中一个目录，然后在码表列表上方，单击“逆向数据库”。在“逆向数据库”对话框中，配置如下参数，然后单击“确定”。表5 逆向数据库配置参数名称说明 *数据连接类型在下拉列表中将显示逆向数据库支持的数据连接类型，请选择所需要的数据连接类型。 *数据连接选择数据连接。如需从其他数据源逆向数据库到码表目录中，需要先在DataArts Studio管理中心创建一个数据连接，以便连接数据源。创建数据连接的操作，请参见管理数据连接。 *数据库选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。队列 DLI队列。仅当“数据连接类型”选择“DLI”时，该参数有效。更新已有表如果从其他数据源逆向过来的表，在码表中已存在同名的表，选择是否更新已有的码表。名称来源逆向后表名称/字段名称的来源，可以是描述或者是相应英文名，如表/字段未指定描述则固定使用英文名。来自描述来自英文名称逆向表数据不逆向：逆向数据库时，将表导入到码表目录中，但是不导入表数据。您可以在完成逆向数据库后，参考填写数值到码表中添加记录到码表中。覆盖：逆向数据库时，将表导入到码表目录中，同时将表数据导入到该码表中。 *数据表选择一个或多个需导入的数据表。图9 逆向配置逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功，单击“关闭”。如果逆向失败，您可以查看失败原因，问题解决后，选中失败的表，然后单击“重新逆向”进行重试。图10 逆向结果

数据治理中心 DATAARTS STUDIO 标准设计
数据治理中心 DATAARTS STUDIO-添加审核人:添加审核人

添加审核人审核人必须是当前工作空间下具有审核权限的成员，需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员。在DataArts Studio控制台首页，选择实例，单击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。图1 选择数据架构在数据架构控制台，单击左侧导航树中的“配置中心”，进入相应页面后，选择“审核人管理”页签。在“审核人管理”页面，单击“添加”按钮。在弹出的添加对话框中，选择审核人，输入正确的手机号码和电子邮箱，单击“确定”完成审核人添加。审核人必须是当前工作空间下具有审核权限的成员，只有管理员和开发者才具有审核权限。审核人不支持手工添加，需要先在“DataArts Studio首页-空间管理”的工作空间内编辑并添加空间成员，以便添加审核人时进行选择。勾选短信通知或邮件通知，并添加审核人后，DataArts Studio将自动在消息通知服务（SMN）中创建对应的主题。主题的显示名格式为：DataArts_主题_审核人_项目名称_项目ID-dlg_ds_审核人名称。图2 添加审核人根据需要，可以添加多个审核人。

数据治理中心 DATAARTS STUDIO 使用前准备
数据治理中心 DATAARTS STUDIO-批量管理作业:操作步骤

操作步骤进入CDM主界面，单击左侧导航上的“集群管理”，选择集群后的“作业管理”。单击“表/文件迁移”显示作业列表，提供以下批量操作：作业分组 CDM支持对分组进行新增、修改、查找、删除。删除分组时，会将组内的所有作业都删除。创建作业的任务配置中，如果已经将作业分配到了不同的分组中，则这里可以按分组显示作业、按分组批量启动作业、按分组导出作业等操作。批量运行作业勾选一个或多个作业后，单击“运行”可批量启动作业。批量删除作业勾选一个或多个作业后，单击“删除”可批量删除作业。批量导出作业单击“导出”，弹出批量导出页面，如图1。图1 批量导出页面全部作业和连接：勾选此项表示一次性导出所有作业和连接。全部作业：勾选此项表示一次性导出所有作业。全部连接：勾选此项表示一次性导出所有连接。按作业名导出：勾选此项并选择需要导出的作业，单击确认即可导出所选作业。按分组导出：勾选此项并下拉选择需要导出的分组，单击确认即可导出所选分组。批量导出可将需要导出的作业导出保存为JSON文件，用于备份或导入到别的集群中。由于安全原因，CDM导出作业时没有导出连接密码，连接密码全部使用“Add password here”替换。批量导入作业单击“导入”，选择JSON格式的文件导入或文本导入。文件导入：待导入的作业文件必须为JSON格式（大小不超过1M）。如果待导入的作业文件是之前从CDM中导出的，则导入前必须先编辑JSON文件，将“Add password here”替换为对应连接的正确密码，再执行导入操作。文本导入：无法正确上传本地JSON文件时可选择该方式。将作业的JSON文本直接粘贴到输入框即可。当前导入时不支持覆盖已有作业。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置MySQL源端参数

配置MySQL源端参数作业中源连接为云数据库MySQL/MySQL数据库连接时，源端作业参数如表1所示。表1 MySQL作为源端时的作业参数参数名说明取值样例使用SQL语句导出关系型数据库的数据时，您可以选择使用自定义SQL语句导出。否 SQL语句 “使用SQL语句”选择“是”时，您可以在这里输入自定义的SQL语句，CDM将根据该语句导出数据。说明： SQL语句只能查询数据，支持join和嵌套写法，但不能有多条查询语句，比如 select * from table a; select * from table b。不支持with语句。不支持注释，比如 "--" ，“/*”。不支持增删改操作，包括但不限于以下操作： load data delete from alter table create table drop table into outfile select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时，显示该参数，表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面，用户也可以直接输入模式或表空间名称。如果选择界面没有待选择的模式或表空间，请确认对应连接里的账号是否有元数据查询的权限。该参数支持配置正则表达式，实现导出满足规则的所有数据库。 SCHEMA_E 表名 “使用SQL语句”选择“否”时，显示该参数，表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面，用户也可以直接输入表名称。如果选择界面没有待选择的表，请确认表是否已经创建，或者对应连接里的账号是否有元数据查询的权限。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。该参数支持配置正则表达式，实现导出满足规则的所有数据库。例如：表名配置为user_[0-9]{1,2}，会匹配 user_0 到 user_9，user_00 到 user_99 的表。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 table 抽取分区字段 “使用SQL语句”选择“否”时，显示该参数，表示抽取数据时使用该字段进行数据切分，CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段，例如以自然增长的序号字段作为分区字段。单击输入框后面的按钮可进入字段选择界面，用户也可以直接输入抽取分区字段名。说明：抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型，建议该字段带有索引。 id Where子句 “使用SQL语句”选择“否”时，显示该参数，表示配置抽取范围的Where子句，不配置时抽取整表。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 分区字段含有空值是否允许分区字段包含空值。是拆分作业选择“是”，会根据“作业拆分字段”值，将作业拆分为多个子作业并发执行。说明：仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。是作业拆分字段 “拆分作业”选择“是”时，显示该参数，使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时，显示该参数，根据“作业拆分字段”的最小值和最大值限定的数据范围，将作业拆分为多少个子作业执行。 - 按表分区抽取从MySQL导出数据时，支持从分区表的各个分区并行抽取数据。启用该功能时，可以通过下面的“表分区”参数指定具体的MySQL表分区。该功能不支持非分区表。数据库用户需要具有系统视图dba_tab_partitions和dba_tab_subpartitions的SELECT权限。否父主题：配置作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置HBase/CloudTable源端参数

配置HBase/CloudTable源端参数作业中源连接为HBase连接或CloudTable连接时，即从MRS HBase、FusionInsight HBase、Apache HBase或者CloudTable导出数据时，源端作业参数如表1所示。 CloudTable或HBase作为源端时，CDM会读取表的首行数据作为字段列表样例，如果首行数据未包含该表的所有字段，用户需要自己手工添加字段。由于HBase的无Schema技术特点，CDM无法获知数据类型，如果数据内容是使用二进制格式存储的，CDM会无法解析。从HBase/CloudTable导出数据时，由于HBase/CloudTable是无Schema的存储系统，CDM要求源端数值型字段是以字符串格式存储，而不能是二进制格式，例如数值100需存储格式是字符串“100”，不能是二进制“01100100”。表1 HBase/CloudTable作为源端时的作业参数参数类型参数名说明取值样例基本参数表名导出数据的HBase表名。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 TBL_2 列族可选参数，导出数据所属的列族。 CF1&CF2 高级属性切分Rowkey 可选参数，选择是否拆分Rowkey，默认为“否”。是 Rowkey分隔符可选参数，用于拆分Rowkey的分隔符，若不设置则不切分。 | 起始时间可选参数，起始时间（包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间及以后的数据。该参数支持配置为时间宏变量，使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-01-01 20:00:00 终止时间可选参数，终止时间（不包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间以前的数据。该参数支持配置为时间宏变量，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 2019-02-01 20:00:00 父主题：配置作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-开发一个Python作业:在作业中引用Python脚本

在作业中引用Python脚本创建一个作业。选择Python节点，并配置节点属性。选择已创建好的Python脚本，配置相关节点参数。在“参数”里面可以配置脚本参数，例如：配置的参数是指执行Python语句时，向语句传递的参数，参数之间使用空格分隔，例如：Microsoft Oracle。此处的“参数”需要在Python语句中引用，否则配置无效。图5 配置Python节点属性单击“测试运行”，查看该作业的运行结果。图6 查看作业运行结果单击“保存”，作业配置信息创建完成。单击“提交”，提交版本后对该作业进行调度。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-开发一个Python作业:建立主机数据连接

建立主机数据连接开发Python脚本前，我们需要建立一个到弹性云服务器ECS的连接。参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。在管理中心页面，单击“数据连接”，进入数据连接页面并单击“创建数据连接”。参见表1配置相关参数，创建主机连接名称为“ecs”的数据连接，如图1所示。表1 主机连接参数是否必选说明数据连接类型是主机连接固定选择为主机连接。数据连接名称是数据连接的名称，只能包含字母、数字、下划线和中划线，且长度不超过100个字符。标签否标识数据连接的属性。设置标签后，便于统一管理。说明：标签的名称，只能包含中文、英文字母、数字和下划线，不能以下划线开头，且长度不能超过100个字符。适用组件是选择此连接适用的组件。勾选组件后，才能在相应组件内使用本连接。默认全选。全选适用组件后，在支持该数据源的组件内都可以使用本连接。各组件支持的数据源请参考DataArts Studio支持的数据源。基础与网络连通配置主机地址是 Linux操作系统主机的IP地址。请参考“查看云服务器详细信息”获取。绑定Agent 是选择CDM集群，CDM集群提供Agent。说明： CDM集群作为管理中心数据连接Agent时，单集群的并发活动线程最大为200。即当多个数据连接共用同一Agent时，通过这些数据连接提交SQL脚本、Shell脚本、Python脚本等任务的同时运行上限为200，超出的任务将排队等待。建议您按照业务量情况规划多个Agent分担压力。在调度Shell、Python脚本时，Agent会访问ECS主机，如果Shell、Python脚本的调度频率很高，ECS主机会将Agent的内网IP加入黑名单。为了保障作业的正常调度，强烈建议您使用ECS主机的root用户将绑定Agent（即CDM集群）的内网IP加到/etc/hosts.allow文件里面。 CDM集群的内网IP获取方式请参见查看集群基本信息/修改集群配置。端口是主机的SSH端口号。 Linux操作系统主机的默认登录端口为22，如有修改可通过主机路径“/etc/ssh/sshd_config”文件中的port字段确认端口号。 KMS密钥是通过KMS加解密数据源认证信息，选择KMS中已创建的密钥。数据源认证及其他功能配置用户名是主机的登录用户名。登录方式是选择主机的登录方式：密钥对密码密钥对是 “登录方式”为“密钥对”时，显示该配置项。主机的登录方式为密钥对时，您需要获取并上传其私钥文件至OBS，在此处选择对应的OBS路径。说明：此处上传的私钥文件应和主机上配置的公钥是一个密钥对，详情请参见密钥对使用场景介绍。密钥对密码是如果密钥对未设置密码，则不需要填写该配置项。密码是 “登录方式”为“密码”时，显示该配置项。主机的登录方式为密码时，填写主机的登录密码。主机连接描述否主机连接的描述信息。图1 新建主机连接关键参数说明：主机地址：已开通ECS主机中开通的ECS主机的IP地址。绑定Agent：已开通批量数据迁移增量包中开通的CDM集群。单击“测试”，测试数据连接的连通性。如果无法连通，数据连接将无法创建。测试通过后，单击“确定”，创建数据连接。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-开发一个Python作业:环境准备

环境准备已开通弹性云服务器，并创建ECS，ECS主机名为“ecs-dgc”。本示例主机选择“CentOS 8.0 64bit with ARM(40GB)”的公共镜像，并且使用ECS自带的Python环境，您可登录主机后使用python命令确认服务器的Python环境。已开通数据集成增量包，CDM集群名为“cdm-dlfpyhthon”，提供数据开发模块与ECS主机通信的代理。请确保ECS主机与CDM集群网络互通，互通需满足如下条件： CDM集群与ECS主机同区域情况下，同虚拟私有云、同子网、同安全组的不同实例默认网络互通；如果同虚拟私有云但是子网或安全组不同，还需配置路由规则及安全组规则，配置路由规则请参见如何配置路由规则章节，配置安全组规则请参见如何配置安全组规则章节。 CDM集群与ECS主机处于不同区域的情况下，需要通过公网或者专线打通网络。通过公网互通时，需确保CDM集群已绑定EIP，数据源所在的主机可以访问公网且防火墙规则已开放连接端口。此外，您还必须确保该ECS主机与CDM集群所属的企业项目必须相同，如果不同，需要修改工作空间的企业项目。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-配置DWS源端参数

配置DWS源端参数作业中源连接为DWS连接时，源端作业参数如表1所示。表1 DWS作为源端时的作业参数参数类型参数名说明取值样例基本参数使用SQL语句导出关系型数据库的数据时，您可以选择使用自定义SQL语句导出。否 SQL语句 “使用SQL语句”选择“是”时，您可以在这里输入自定义的SQL语句，CDM将根据该语句导出数据。说明： SQL语句只能查询数据，支持join和嵌套写法，但不能有多条查询语句，比如 select * from table a; select * from table b。不支持with语句。不支持注释，比如 "--" ，“/*”。不支持增删改操作，包括但不限于以下操作： load data delete from alter table create table drop table into outfile select id,name from sqoop.user; 模式或表空间 “使用SQL语句”选择“否”时，显示该参数，表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面，用户也可以直接输入模式或表空间名称。如果选择界面没有待选择的模式或表空间，请确认对应连接里的账号是否有元数据查询的权限。说明：该参数支持配置通配符（*），实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如： SCHEMA*表示导出所有以“SCHEMA”开头的数据库。 *SCHEMA表示导出所有以“SCHEMA”结尾的数据库。 *SCHEMA*表示数据库名称中只要有“SCHEMA”字符串，就全部导出。 SCHEMA_E 表名 “使用SQL语句”选择“否”时，显示该参数，表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面，用户也可以直接输入表名称。如果选择界面没有待选择的表，请确认表是否已经创建，或者对应连接里的账号是否有元数据查询的权限。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。说明：表名支持配置通配符（*），实现导出以某一前缀开头或者以某一后缀结尾的所有表（要求表中的字段个数和类型都一样）。例如： table*表示导出所有以“table”开头的表。 *table表示导出所有以“table”结尾的表。 *table*表示表名中只要有“table”字符串，就全部导出。 table 高级属性 Where子句 “使用SQL语句”选择“否”时，显示该参数，表示配置抽取范围的Where子句，不配置时抽取整表。该参数支持配置为时间宏变量，实现抽取指定日期的数据，详细说明请参见关系数据库增量迁移。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 DS='${dateformat(yyyy-MM-dd,-1,DAY)}' 抽取分区字段 “使用SQL语句”选择“否”时，显示该参数，表示抽取数据时使用该字段进行数据切分，CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段，例如以自然增长的序号字段作为分区字段。单击输入框后面的按钮可进入字段选择界面，用户也可以直接输入抽取分区字段名。说明：抽取分区字段支持TINYINT、SMALLINT、INTEGER、BIGINT、REAL、FLOAT、DOUBLE、NUMERIC、DECIMAL、BIT、BOOLEAN、DATE、TIME、TIMESTAMP类型，建议该字段带有索引。 id 分区字段含有空值是否允许分区字段包含空值。是拆分作业选择“是”，会根据“作业拆分字段”值，将作业拆分为多个子作业并发执行。说明：仅支持目的端为DLI和Hive时配置该参数及作业拆分字段、拆分字段最小值、拆分字段最大值、子作业个数参数。是作业拆分字段 “拆分作业”选择“是”时，显示该参数，使用该字段将作业拆分为多个子作业并发执行。 - 拆分字段最小值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最小值。 - 拆分字段最大值 “拆分作业”选择“是”时，显示该参数，表示抽取数据时“作业拆分字段”的最大值。 - 子作业个数 “拆分作业”选择“是”时，显示该参数，根据“作业拆分字段”的最小值和最大值限定的数据范围，将作业拆分为多少个子作业执行。 - 父主题：配置作业源端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-开发一个MRS Spark Python作业:案例二：通过MRS Spark Python作业实现打印输出"hello python"

案例二：通过MRS Spark Python作业实现打印输出"hello python" 前提条件：开发者具有OBS相关路径的访问权限。数据准备：准备脚本文件"zt_test_sparkPython1.py"，具体内容如下： from pyspark import SparkContext, SparkConf conf = SparkConf().setAppName("master"). setMaster("yarn") sc = SparkContext(conf=conf) print("hello python") sc.stop() 操作步骤：将脚本文件传入OBS桶中。创建一个数据开发模块空作业。进入到作业开发页面，拖动“MRS Spark Python”节点到画布中并单击，配置节点的属性。参数设置说明： --master yarn --deploy-mode cluster obs://obs-tongji/python/zt_test_sparkPython1.py 其中：zt_test_sparkPython1.py 为脚本所在路径单击“测试运行”，执行该脚本作业。待测试完成，执行“提交”。在“作业监控”界面，查看作业执行结果。图8 查看作业执行结果日志验证。运行成功后，登录MRS manager后在YARN上查看日志，发现有hello python的输出。图9 查看YARN上日志

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-业务指标:删除业务指标

删除业务指标如果您已不再需要某个业务指标，可以删除该业务指标。如果待删除的业务指标已发布，则无法执行删除操作，您必须先将该业务指标下线后，才能执行删除操作。在数据架构控制台，单击左侧导航树中的“业务指标”，进入业务指标页面。在维度列表中找到需要删除的业务指标度，勾选该业务指标，然后单击业务指标列表上方“更多”中的“删除”。图8 删除业务指标在系统弹出的“删除”对话框中，确认无误后，单击“是”将业务指标删除。

数据治理中心 DATAARTS STUDIO 指标设计
数据治理中心 DATAARTS STUDIO-业务指标:新建业务指标并发布

新建业务指标并发布在DataArts Studio控制台首页，选择实例，单击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。图1 选择数据架构在数据架构控制台，单击左侧导航树中的“业务指标”，进入业务指标页面。在左侧的流程树中，选中一个流程，单击“新建”开始新建业务指标。在“新建业务指标”页面，请根据以下步骤配置参数，配置完成后，单击“发布”。填写“基本信息”参数。图2 新建业务指标表1 指标基本信息参数参数说明说明 *指标名称业务指标的名称。只能包含中文、英文字母，数字，下划线，中划线，左右括号，逗号，空格以及以下特殊字符+#[]/，且不以空格开头或结尾。指标编码指标编码是自动生成的，生成规则可以在DataArts Studio数据架构的“配置中心”页面进行配置，详情请参见编码规则。指标别名可选参数。 *所属流程选择指标所属的业务流程。如果您还未创建业务流程，请参见流程设计进行创建。 *设置目的描述设置该指标的目的。 *指标定义需准确描述指标的定义。备注备注信息。自定义指标如果在配置中心的指标配置页面设置了自定义指标，页面中会显示自定义指标参数。创建流程请参见指标配置。配置指标数据信息。图3 指标数据信息表2 指标数据信息参数参数说明说明 *计算公式定义业务指标的计算逻辑，以便指导开发者根据计算公式设计原子指标、衍生指标。业务指标是为了指导技术指标的落地，实际并不做运算。 *统计周期指定指标的统计周期，以便指导开发者根据统计周期设计时间限定。统计维度可以在下拉列表中选择已经创建的维度。维度的创建请参见新建维度。统计口径和修饰词限定是对业务场景限定抽象，用于度量范围的圈定。 *刷新频率指标数据的刷新频率。开发者或运维者可以依据指标的刷新频率，合理设置衍生指标的调度频率。指标应用场景描述指标的应用场景。关联技术指标类型下拉选择与业务指标关联的技术指标类型，包含衍生指标、复合指标和原子指标。关联技术指标下拉选择与业务指标关联的技术指标。度量对象衡量该指标的度量字段。计量单位指标的计量单位。配置管理信息。图4 管理信息表3 管理信息参数说明参数说明说明数据来源描述数据来源，也就是数据的产生者。 *指标管理部门指标的管理部门。 *指标责任人指标的责任人，可以手动输入名字或直接选择已有的责任人。在弹出框中，选择审核人，单击“确认提交”，提交审核。如果当前用户已被添加为审核人，则可以勾选“自助审批”，单击“确认提交”后，状态显示为“已发布”。选择审核人时，系统支持选择多个审核人，全部审批通过后，状态才会显示为已发布。如果有任意一个人驳回，则状态为已驳回。可以参照步骤3~步骤5，完成其他业务指标的创建和发布。完成所有业务指标的新建之后，需要等待审核人员审核。审核通过后，业务指标创建完成。业务指标创建完成后，单击指标名称，可以查看该业务指标的详情、关系图、发布历史和审核历史。通过关系图，可以查看该业务指标的血缘图。通过发布历史，可以查看该业务指标的发布历史和不同发布版本之间的差异对比。

数据治理中心 DATAARTS STUDIO 指标设计
数据治理中心 DATAARTS STUDIO-配置MRS Hudi目的端参数

配置MRS Hudi目的端参数作业中目的连接为MRS Hudi连接时，目的端作业参数如表1所示。表1 MRS Hudi作为目的端时的作业参数通用配置配置项配置说明推荐配置目的连接名称选择已配置的MRS Hudi连接。 hudi_to_cdm 数据库名称输入或选择写入数据的数据库名称。单击输入框后面的按钮可进入数据库选择界面。 dbadmin 表名单击输入框后面的按钮可进入表的选择界面。该参数支持配置为时间宏变量，且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合，可以实现定期同步新增数据，详细说明请参见使用时间宏变量完成增量同步。说明：如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。 cdm 自动创表是否自动创建Hudi表。不自动创建：不自动建表。不存在时创建：当目的端的数据库没有“表名”参数中指定的表时，CDM会自动创建该表。如果“表名”参数配置的表已存在，则不创建，数据写入到已存在的表中。不自动创表导入前清空数据选择目的端表中数据的处理方式：是：任务启动前会清除目标表中数据。否：导入前不清空目标表中的数据，如果选“否”且表中有数据，则数据会追加到已有的表中。否全量模式写Hoodie 选择写Hoodie模式，默认选“是”表示全量模式，“否”表示微批模式。全量模式为异步分片写入Hoodie，适用于一次全量写入场景。微批模式为异步分批写入Hoodie，适用于对入库时间SLA要求较为严格的场景，以及对资源消耗较小，对MOR表存储类型在线进行压缩的场景。说明：运行-失败重试期间不允许修改此模式。是批次数据大小 “全量模式写Hoodie”设置为“否”时，使用微批模式呈现此参数。用于设置单个批次写Hoodie的数据行数，默认100000行。 100000 使用入库时间字段将一个字段标记为入库时间字段，自动建表时将此字段自动加到建表语句中，写入Hudi时将把此字段的值替换为当前时间，不自动建表时选择已经存在的入库时间字段。是入库时间字段名称 “使用入库时间字段”设置为“是”时，呈现此参数。用于记录写入Hudi的时间。说明：对于已存在目的端表中带有入库时间字段的，可以直接使用已有的timestamp类型字段。对于自动建表的场景，该字段会被拼接到建表语句中，类型为timestamp，该字段名称不能与源端的字段有重复（包括自定义字段）。 cdc_last_update_date Hudi建表配置 Location 存储在OBS或HDFS上数据库表的文件路径。 - Hudi表类型 Hudi表存储类型。 MOR表：数据先写入avro格式的日志文件，读取时合并到parquet文件。 COW表：数据直接写入parquet文件。 MOR Hudi表主键对Hudi建表设置主键，多个值以逗号隔开。 - Hudi表生成器类主键生成类型，实现org.apache.hudi.keygen.KeyGenerator从传入记录中提取键值。 - Hudi表预聚合键对Hudi建表设置预聚合键，当两个记录拥有相同的主键时，保留precombine字段值较大的记录。说明：如果没有时间字段，可以设置和主键一样的字段，当遇到主键冲突时，保留最新的记录。 ts Hudi表分区字段对Hudi建表设置分区字段，多个值以逗号隔开。 - Hudi表压缩策略（是否开启写入压缩）在线进行压缩，仅对MOR表生效。是 Hudi表清除策略（保留提交数）清除时保留的提交数。 1 Hudi表归档策略（最小保留提交数）归档时保留的最小提交数。 1 Hudi表归档策略（最大保留提交数）归档时保留的最大提交数。 100 Hudi表配置对Hudi建表设置自定义参数属性，此处填入的参数将会在options中生效。例如：主键、combineKey、索引。 - 父主题：配置作业目的端参数

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-表达式概述:举例

举例在Rest Client节点的参数“URL参数”中使用EL表达式“tableName=#{JSONUtil.path(Job.getNodeOutput("get_cluster"),"tables[0].table_name")}”，如图1所示。表达式说明如下：获取作业中“get_cluster”节点的执行结果（“Job.getNodeOutput("get_cluster")”），执行结果是一个JSON字符串。通过JSON路径（“tables[0].table_name”），获取JSON字符串中字段的值。图1 表达式示例 EL表达式在数据开发过程中被广泛应用，您可以参考最佳实践查看更多应用EL表达式的进阶实践。

数据治理中心 DATAARTS STUDIO EL表达式参考
数据治理中心 DATAARTS STUDIO-表达式概述:调试方法介绍

调试方法介绍下面介绍几种EL表达式的调试方法，能够在调试过程中方便地看到替换结果。后文以#{DateUtil.now()}表达式为例进行介绍。使用DIS Client节点。前提：您需要具备DIS通道。方法：选择DIS Client节点，将EL表达式直接写在要发送的数据中，单击“测试运行”，然后在节点上右键查看日志，日志中会把EL表达式的值打印出来。使用Kafka Client节点。前提：您需要具备MRS集群，且集群有Kafka组件。方法：选择Kafka Client节点，将EL表达式直接写在要发送的数据中，单击“测试运行”，然后在节点上右键查看日志，日志中会把EL表达式的值打印出来。使用Shell节点。前提：您需要具备ECS弹性云服务器。方法：创建一个主机连接，将EL表达式直接通过echo打印出来，单击“测试运行”之后查看日志，日志中会打印出EL表达式的值。使用Create OBS节点。如果上述方法均不可用，则可以通过Create OBS去创建一个OBS目录，目录名称就是EL表达式的值，单击“测试运行”后，再去OBS界面查看创建出来的目录名称。

数据治理中心 DATAARTS STUDIO EL表达式参考
数据治理中心 DATAARTS STUDIO-MongoDB/DDS增量迁移

MongoDB/DDS增量迁移使用CDM导出MongoDB或者DDS的数据时，支持导出指定时间段内的数据，配合CDM的定时任务，可以实现MongoDB/DDS的增量迁移。如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。在创建CDM表/文件迁移的作业，源连接选择为MongoDB连接或者DDS连接时，高级属性的可选参数中可以配置查询筛选。图1 MongoDB查询筛选此参数支持配置为时间宏变量，例如起始时间配置为{"ts":{$gte:ISODate("${dateformat(yyyy-MM-dd'T'HH:mm:ss.SSS'Z',-1,DAY)}")}}，表示查找ts字段中大于时间宏转换后的值，即只导出昨天以后的数据。参数配置后，CDM就只导出前一天内的数据，再将该作业配置为每天0点执行一次，就可以增量同步每天新生成的数据。父主题：增量迁移原理介绍

数据治理中心 DATAARTS STUDIO 增量迁移原理介绍
数据治理中心 DATAARTS STUDIO-逆向数据库（维度建模）:逆向数据库导入表到维度模型中

逆向数据库导入表到维度模型中在DataArts Studio控制台首页，选择实例，单击“进入控制台”，选择对应工作空间的“数据架构”模块，进入数据架构页面。图1 选择数据架构在DataArts Studio数据架构控制台，单击左侧导航栏的“维度建模”进入维度建模页面。打开需要逆向数据库导入的维度或表的页签，然后单击列表上方的“逆向数据库”。图2 选中对象在“逆向数据库”对话框中配置参数。表1 逆向数据库参数名称说明所属主题单击“选择主题”按钮选择所属的主题信息。数据连接类型选择维度建模的逆向数据库。数据连接选择所需要的数据连接。如需从其他数据源逆向数据库到关系模型中，需要先在DataArts Studio管理中心创建一个数据连接，以便连接数据源。创建数据连接的操作，请参见管理数据连接。数据库选择数据库。队列仅限DLI连接类型，需选择DLI队列。 Schema DWS或POSTGRESQL的模式。该参数在DWS或POSTGRESQL连接类型有效。更新已有表在导入时，只有创建或更新操作，不会删除已有的表。不更新：如果表已存在，将直接跳过，不更新。更新：如果表已存在，更新已有的表信息。如果表处于“已发布”状态，表更新后，您需要重新发布表，才能使更新后的表生效。名称来源逆向后表名称/字段名称的来源，可以是描述或者是相应英文名，如表/字段未指定描述则固定使用英文名。来自描述来自英文名称数据表选择“全部”时，将数据库中的所有的表都导入。选择“部分”时，请选择需要导入的表。单击“确定”开始执行逆向数据库操作。等待操作执行完成，即可在“上次逆向”中查看结果或者执行重新逆向操作。

数据治理中心 DATAARTS STUDIO

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线