华为云用户手册

数据治理中心 DATAARTS STUDIO-通过数据质量对比数据迁移前后结果:创建并执行数据迁移作业

创建并执行数据迁移作业登录DataArts Studio控制台，单击相应工作空间后的“数据集成”。在“集群管理”页面，单击所创建集群操作列“作业管理”，进入“作业管理”页面。在表/文件迁移页签中，单击新建作业，创建数据迁移作业。配置DWS源端作业参数、MRS Hive目的端作业参数，参数说明请参见配置DWS源端参数、配置MRS Hive目的端作业参数。图4 作业配置配置作业字段映射及任务配置，单击“保存并运行”，执行CDM作业。在“表/文件迁移”作业列表中，查看作业执行情况。图5 查看作业运行情况

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-通过数据质量对比数据迁移前后结果:创建数据迁移连接

创建数据迁移连接登录DataArts Studio控制台，单击相应工作空间后的“数据集成”。在集群管理页面，单击所创建集群操作列“作业管理”，进入“作业管理”页面。图1 作业管理页面在连接管理页签中，单击“新建连接”，创建DWS数据连接，参数说明请参见配置DWS连接。图2 配置DWS连接同上述步骤，创建MRS Hive数据连接，参数说明请参见配置MRS Hive连接。图3 配置MRS Hive连接

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-创建数据集成作业:新建MySQL到OBS迁移作业

新建MySQL到OBS迁移作业正式业务流程中，需要将MySQL中的原始样例数据需要导入OBS中，并标准化为点数据集和边数据集。在DataArts Studio数据集成控制台，进入“集群管理”页面，在集群列表中找到所需要的集群，单击“作业管理”。在“作业管理”页面，单击“表/文件迁移”，再单击“新建作业”。图14 表/文件迁移按照如下步骤将MySQL中的4张原始数据表，依次迁移到OBS桶中。配置作业vertex_user_rds2obs。源端的“表名”选择在新建OBS到MySQL迁移作业中迁移到MySQL的vertex_user。目的端的“写入目录”注意选择非原始数据所在目录以避免文件覆盖，“文件格式”按照GES图导入格式要求设置为“CSV格式”，由于表中有中文字符还需额外配置高级属性“编码类型”为“GBK”。注意：目的端高级属性需要额外配置“自定义文件名”，取值为“${tableName}”。如果不配置，则迁移到OBS的CSV文件名会带上时间戳等额外字段，导致每次运行迁移作业获取的文件名不一致，无法每次迁移后自动导入GES图数据。其他高级属性无需配置，单击“下一步”。图15 vertex_user_rds2obs作业基础配置图16 vertex_user_rds2obs作业高级配置在字段映射中，根据GES图数据的要求，此处需要新增字段label，作为图文件的标签。 vertex_user：label取值为user，并将此字段调整至第2列。 vertex_movie：label取值为movie，并将此字段调整至第2列。 edge_friends：label取值为friends，并将此字段调整至第3列。 edge_rate：label取值为rate，并将此字段调整至第3列。将原始数据结构根据GES图导入的要求标准化。则点表vertex_user和vertex_movie需要在第二列补充标签label，边表edge_rate和edge_friends需要在第三列补充标签label。点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下，详情可参见一般图数据格式。点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示，id是点数据的唯一标识。 id,label,property 1,property 2,property 3,… 边数据集罗列了各个边的数据信息，一行为一条边的数据。GES中图规格是以边的数量进行定义的，如一百万边。格式如下所示，id 1、id 2是一条边的两个端点的id。 id 1, id 2, label, property 1, property 2, … 图17 vertex_user_rds2obs新增字段映射调整字段顺序，点数据集将label调整至第2列，边数据集将label调整至第3列。调整完成后如图19所示，然后单击下一步。图18 vertex_user_rds2obs调整字段顺序图19 vertex_user_rds2obs字段映射任务配置无需修改，直接保存并运行即可。图20 任务配置等待作业运行完成后，如果作业成功，则vertex_user.csv表已成功写入到OBS桶中。图21 vertex_user_rds2obs作业运行成功参考2到4，完成vertex_movie_rds2obs、edge_friends_rds2obs和edge_rate_rds2obs作业的创建，将4张原始表从MySQL标准化到OBS桶中。

数据治理中心 DATAARTS STUDIO 基于MRS Hive表构建图数据并自动导入GES
数据治理中心 DATAARTS STUDIO-创建数据集成作业:新建MySQL到MRS Hive迁移作业

新建MySQL到MRS Hive迁移作业正式业务流程中，需要将MySQL中的原始样例数据需要导入MRS Hive中，并标准化为点数据集和边数据集。在DataArts Studio数据集成控制台，进入“集群管理”页面，在集群列表中找到所需要的集群，单击“作业管理”。在“作业管理”页面，单击“表/文件迁移”，再单击“新建作业”。图22 表/文件迁移按照如下步骤将MySQL中的4张原始数据表，依次迁移到MRS Hive中。配置作业vertex_user_rds2hive。源端的“表名”选择在新建OBS到MySQL迁移作业中迁移到MySQL的vertex_user，目的端的“表名”选择在创建MRS Hive标准数据表中创建的vertex_user表。其他参数配置如图所示，无需配置高级属性，然后单击“下一步”。图23 vertex_user_rds2hive作业基础配置在字段映射中，根据GES图数据的要求，此处需要新增字段label，作为图文件的标签。 vertex_user：label取值为user，并将此字段调整至第2列。 vertex_movie：label取值为movie，并将此字段调整至第2列。 edge_friends：label取值为friends，并将此字段调整至第3列。 edge_rate：label取值为rate，并将此字段调整至第3列。将原始数据结构根据GES图导入的要求标准化。则点表vertex_user和vertex_movie需要在第二列补充标签label，边表edge_rate和edge_friends需要在第三列补充标签label。点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下，详情可参见一般图数据格式。点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示，id是点数据的唯一标识。 id,label,property 1,property 2,property 3,… 边数据集罗列了各个边的数据信息，一行为一条边的数据。GES中图规格是以边的数量进行定义的，如一百万边。格式如下所示，id 1、id 2是一条边的两个端点的id。 id 1, id 2, label, property 1, property 2, … 图24 vertex_user_rds2hive新增字段映射调整字段顺序，点文件中将label调整至第2列，边文件将label调整至第3列。调整完成后如图26所示，然后单击下一步。图25 vertex_user_rds2hive调整字段顺序图26 vertex_user_rds2hive字段映射任务配置无需修改，直接保存并运行即可。图27 任务配置等待作业运行完成后，如果作业成功，则vertex_user表已成功迁移到MRS Hive中。图28 vertex_user_rds2hive作业运行成功参考2到4，完成vertex_movie_rds2hive、edge_friends_rds2hive和edge_rate_rds2hive作业的创建，将4张原始表从MySQL标准化到MRS Hive中。

数据治理中心 DATAARTS STUDIO 基于MRS Hive表构建图数据并自动导入GES
数据治理中心 DATAARTS STUDIO-创建数据集成作业:新建OBS到MySQL迁移作业

新建OBS到MySQL迁移作业为方便演示，需要将OBS中的CSV格式的样例数据导入到MySQL数据库中。在DataArts Studio数据集成控制台，进入“集群管理”页面，在集群列表中找到所需要的集群，单击“作业管理”。在“作业管理”页面，单击“表/文件迁移”，再单击“新建作业”。图9 表/文件迁移按照如下步骤将数据源准备中的4张原始数据表，依次从OBS迁移到MySQL数据库中。配置作业vertex_user_obs2rds。源端的“源目录或文件”选择在数据源准备中上传到OBS的vertex_user.csv，由于表中有中文字符还需额外配置高级属性“编码类型”为“GBK”。目的端的“表名”选择在创建MySQL原始数据表中创建的vertex_user表。然后单击“下一步”。图10 vertex_user_obs2rds作业配置在字段映射中，检查字段映射顺序是否正确。如果字段映射顺序正确，单击下一步即可。图11 vertex_user_obs2rds字段映射任务配置无需修改，直接保存并运行即可。图12 任务配置等待作业运行完成后，如果作业成功，则vertex_user表已成功迁移到MySQL数据库中。图13 vertex_user_obs2rds作业运行成功参考2到4，完成vertex_movie_obs2rds、edge_friends_obs2rds和edge_rate_obs2rds作业的创建，将4张原始表从OBS迁移到MySQL中。

数据治理中心 DATAARTS STUDIO 基于MRS Hive表构建图数据并自动导入GES
数据治理中心 DATAARTS STUDIO-数据集成数据搬迁:新空间导入作业和连接

新空间导入作业和连接请您登录控制台首页，选择并进入新工作空间的“数据集成”模块，然后执行如下操作进行批量导入。在CDM主界面，单击左侧导航上的“集群管理”，单击集群“操作”列的“作业管理”，进入到“表/文件迁移”界面。单击作业列表上方的“导入”按钮，准备导入JSON文件。图3 批量导入在弹出的窗口中，选择导出作业获取的JSON文件，上传JSON文件。图4 选择JSON文件 JSON文件上传成功后，单击“设置密码”，配置数据连接的密码或SK。图5 进入设置密码在设置密码弹窗中，依次输入各数据连接的密码或SK，完成后单击确认，回到导入作业界面。图6 设置密码在导入作业界面，单击确认，开始导入。图7 开始导入导入完成后，界面会显示导入情况。如果存在导入失败的情况，请您根据系统报错原因提示，调整后重新导入。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-数据集成数据搬迁:旧空间导出作业和连接

旧空间导出作业和连接请您登录控制台首页，选择并进入旧工作空间的“数据集成”模块，然后执行如下操作进行批量导出。在CDM主界面，单击左侧导航上的“集群管理”，单击集群“操作”列的“作业管理”，进入到“表/文件迁移”界面。单击作业列表上方的“导出”按钮，准备导出连接和作业。图1 批量导出在弹出的窗口中，选择“全部作业和连接”，单击“确认”，导出所有作业和连接。图2 全部导出导出成功后，通过浏览器下载地址，获取到导出的JSON文件。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-跨空间进行作业调度:配置方法（Kafka Client）

配置方法（Kafka Client）登录DataArts Studio控制台，找到所需要的DataArts Studio实例，单击实例卡片上的“进入控制台”，进入概览页面。单击第一个工作空间A的“数据开发”，系统跳转至数据开发页面，新建数据开发作业job1。分别选择Dummy节点和Kafka Client节点，选中连线图标并拖动，编排如图7所示的作业。 Dummy节点不执行任何操作，本例选择Dummy节点仅为演示操作，实际使用中您可以用其他作业节点替代。 Kafka Client节点用于发送消息。您需要选择Kafka连接和Topic名称，并将发送数据配置为EL表达式job1,#{DateUtil.getDay(Job.startTime)}。则当本作业执行完成后，将使用Kafka Client发送一条字符串消息：job1,作业执行日期。例如2月15日作业job1执行，实际的消息则为：job1,15。作业调度等其他作业参数无需配置，保持默认即可。图7 job1作业Kafka Client节点配置在另一个工作空间B，新建数据开发作业job_agent。分别选择Dummy节点和Subjob节点，选中连线图标并拖动，编排图8所示的作业。图8 job_agent作业调度配置 Dummy节点不执行任何操作，本例选择Dummy节点用于设置Dummy节点到Subjob节点之间连线的IF条件。 Subjob节点用于将需要后续执行的作业job2作为子作业引用执行。实际使用中您可以引用已有作业，也可以使用其他作业节点替代Subjob节点。作业的调度方式设置为“事件驱动调度”，连接名称和Topic选择为工作空间B中的Kafka连接和Topic，需要与工作空间A中job1作业中Kafka Client节点所选择的Kafka连接和Topic相对应，用于通过Kafka消息触发作业运行。 IF判断条件设置，用于校验Kafka Client节点发送的消息是否符合预期，符合才会继续执行Subjob节点，否则跳过。右键单击连线，选择“设置条件”，在弹出的“编辑参数表达式”文本框中输入IF判断条件，失败策略保持默认即可。IF判断条件为通过EL表达式语法填写三元表达式，当三元表达式结果为true的时候，才会执行连线后面的节点，否则后续节点将被跳过。 #{StringUtil.equals(StringUtil.split(Job.eventData,',')[1],'21')} 该IF判断条件表示，仅当从Kafka通道获取的消息逗号后的部分为“21”时，即每月21日时，才执行后续的作业节点。如果您需要匹配多条消息记录，可以添加多个Dummy节点并分别添加到Subjob节点的IF条件，然后将数据开发组件配置项中的“多IF策略”设置为“逻辑或”即可。图9 编辑参数表达式测试运行作业job_agent，在工作空间A的作业job1未运行的情况下，前往实例监控中查看执行结果是否符合预期。由于作业job1未运行即未发送消息，则job_agent作业中的Subjob节点被跳过，证明IF条件判断生效。图10 Subjob节点被跳过启动调度job_agent。然后测试运行工作空间A作业job1，待job1实例运行成功后，前往工作空间B实例监控中查看作业运行结果是否符合预期。 job_agent被触发运行。如果当天日期和IF条件中的日期匹配，则job_agent作业中的Subjob节点成功运行、子作业job2也执行完成。否则Subjob节点被跳过。图11 Subjob节点成功运行

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-跨空间进行作业调度:方案说明

方案说明 DataArts Studio数据开发模块支持以事件触发的方式运行作业，因此通过DIS或者MRS Kafka作为作业依赖纽带，可以跨空间实现作业调度。如下图，工作空间A中的job1运行完成后，可以使用DIS Client或Kafka Client发送消息触发中继作业job_agent；job_agent配置事件触发调度，根据DIS Client或Kafka Client发送的消息触发运行后，判断消息是否符合预期，符合则触发job2作业运行，否则不再触发job2运行。图1 调度方案

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-跨空间进行作业调度:配置方法（DIS Client）

配置方法（DIS Client）登录DataArts Studio控制台，找到所需要的DataArts Studio实例，单击实例卡片上的“进入控制台”，进入概览页面。单击第一个工作空间A的“数据开发”，系统跳转至数据开发页面，新建数据开发作业job1。分别选择Dummy节点和DIS Client节点，选中连线图标并拖动，编排如图2所示的作业。 Dummy节点不执行任何操作，本例选择Dummy节点仅为演示操作，实际使用中您可以用其他作业节点替代。 DIS Client节点用于发送消息。您需要选择DIS所属Region和通道，并将发送数据配置为EL表达式job1,#{DateUtil.getDay(Job.startTime)}。则当本作业执行完成后，将使用DIS Client发送一条字符串消息：job1,作业执行日期。例如2月15日作业job1执行，实际的消息则为：job1,15。作业调度等其他作业参数无需配置，保持默认即可。图2 job1作业DIS Client节点配置在另一个工作空间B，新建数据开发作业job_agent。分别选择Dummy节点和Subjob节点，选中连线图标并拖动，编排图3所示的作业。图3 job_agent作业调度配置 Dummy节点不执行任何操作，本例选择Dummy节点用于设置Dummy节点到Subjob节点之间连线的IF条件。 Subjob节点用于将需要后续执行的作业job2作为子作业引用执行。实际使用中您可以引用已有作业，也可以使用其他作业节点替代Subjob节点。作业的调度方式设置为“事件驱动调度”，DIS通道名称选择为工作空间A中job1作业中DIS Client节点所选择的通道，用于通过DIS消息触发作业运行。 IF判断条件设置，用于校验DIS Client节点发送的消息是否符合预期，符合才会继续执行Subjob节点，否则跳过。右键单击连线，选择“设置条件”，在弹出的“编辑参数表达式”文本框中输入IF判断条件，失败策略保持默认即可。IF判断条件为通过EL表达式语法填写三元表达式，当三元表达式结果为true的时候，才会执行连线后面的节点，否则后续节点将被跳过。 #{StringUtil.equals(StringUtil.split(Job.eventData,',')[1],'21')} 该IF判断条件表示，仅当从DIS通道获取的消息逗号后的部分为“21”时，即每月21日时，才执行后续的作业节点。如果您需要匹配多条消息记录，可以添加多个Dummy节点并分别添加到Subjob节点的IF条件，然后将数据开发组件配置项中的“多IF策略”设置为“逻辑或”即可。图4 编辑参数表达式测试运行作业job_agent，在工作空间A的作业job1未运行的情况下，前往实例监控中查看执行结果是否符合预期。由于作业job1未运行即未发送消息，则job_agent作业中的Subjob节点被跳过，证明IF条件判断生效。图5 Subjob节点被跳过启动调度job_agent。然后测试运行工作空间A作业job1，待job1实例运行成功后，前往工作空间B实例监控中查看作业运行结果是否符合预期。 job_agent被触发运行。如果当天日期和IF条件中的日期匹配，则job_agent作业中的Subjob节点成功运行、子作业job2也执行完成。否则Subjob节点被跳过。图6 Subjob节点成功运行

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-自然周期调度之同周期依赖原理:天依赖天

天依赖天规则：按自然天内的实例进行依赖，不会跨天向前推找依赖实例。在同自然天内A依赖B ，无论A、B设置在什么时间点执行，A永远在B之后执行。天区间为[00:00:00, 23:59:59] 举例1：A依赖B，A在2:00执行，B在3:00执行，A会等B在3:00执行完成后执行。图13 天依赖天举例一举例2：A依赖B，A在5:00执行，B在3:00执行，A在B执行完成后，在5:00执行。图14 天依赖天举例二

数据治理中心 DATAARTS STUDIO 周期调度依赖策略
数据治理中心 DATAARTS STUDIO-自然周期调度之同周期依赖原理:小时依赖分钟

小时依赖分钟规则：小时作业依赖分钟作业，往前推到上一个自然小时范围内的所有分钟级实例。区间是前开后闭。举例1：A依赖B，A为小时作业，每个小时0分执行，B为15m分钟作业；B执行完后执行A。图6 小时依赖分钟举例一举例2：A依赖B，A为小时作业，启动时间3:20，B为15m作业，会依赖往前推一个小时内的所有B实例。图7 小时依赖分钟举例二如果勾选“最近”的按钮，小时作业只依赖所选作业最近的一个运行实例，比如A在3:20开始调度，A依赖B最近的3:00调度的一个运行实例。如果作业A在零点进行调度，所依赖作业B可以是昨天的分钟任务。

数据治理中心 DATAARTS STUDIO 周期调度依赖策略
数据治理中心 DATAARTS STUDIO-自然周期调度之同周期依赖原理:天依赖小时

天依赖小时规则：按自然天，天周期作业实例依赖一天内所有小时作业的实例。A为天作业，依赖B小时作业，A依赖所有B在自然天内的实例，A会在最后一个B小时作业实例执行完成后执行。举例：A依赖B，A配置的调度时间为每天17点执行一次，B从0点开始，每5个小时执行一次，那么A实际执行时间为JobB在20点的实例运行完之后开始运行。图12 天依赖小时如果勾选“最近”的按钮，天作业只依赖所选作业最近的一个运行实例，比如A在每天17点开始调度，A依赖B最近的15:00调度的一个运行实例。

数据治理中心 DATAARTS STUDIO 周期调度依赖策略
数据治理中心 DATAARTS STUDIO-自然周期调度之同周期依赖原理:分钟依赖分钟

分钟依赖分钟规则：分钟是最小调度粒度，没有自然分钟周期的概念，依赖策略是往前推一个调度周期找依赖实例。举例1：A依赖B，为同周期分钟作业，在同一时间点，B执行完后开始执行A。图2 分钟依赖分钟举例一举例2：A依赖B，A为15分钟周期，B为10分钟周期，A往前推15分钟（包括当前启动整点），依赖范围内的B实例，在2:15分执行A任务依赖1个B实例（2:10分），2:30执行的A任务依赖两个B实例（2:20和2:30）。它的边界范围为(0分:15分]，前开后闭区间。图3 分钟依赖分钟举例二

数据治理中心 DATAARTS STUDIO 周期调度依赖策略
数据治理中心 DATAARTS STUDIO-自然周期调度之同周期依赖原理:小时依赖小时

小时依赖小时规则：每个自然小时周期内的实例产生依赖，区间边界是自然小时[00:00, 00:59]。举例1：A依赖B，在同自然小时内，无论A、B设置在什么时间点执行，A永远在B之后执行。图8 小时依赖小时举例一举例2：A依赖B，A在每小时5分0秒执行，B在12分执行，A会等B执行完成后执行。图9 小时依赖小时举例二离散小时依赖离散小时：自然天内，依赖关系中的上游、下游任务数量一致，上下游周期数一致。自然天内，上下游任务数量不一致，下游任务运行当天生成的周期实例，将根据就近原则挂载依赖，依赖距离自己定时运行时间最近的上游实例。从index向前找上游依赖实例，依赖上游一整个区间内的实例；向前未找到依赖的实例时，需要向后找，向后查找时，只依赖最近的一个实例。

数据治理中心 DATAARTS STUDIO 周期调度依赖策略
数据治理中心 DATAARTS STUDIO-文件增量迁移:文件/路径过滤器

文件/路径过滤器参数位置：在创建表/文件迁移作业时，如果源端数据源为文件类型，那么源端作业参数的高级属性中可以看到“过滤类型”参数，该参数可选择：通配符或正则表达式。参数原理：“过滤类型”选择“通配符”时，CDM就可以通过用户配置的通配符过滤文件或路径，CDM只迁移满足指定条件的文件或路径。配置样例：例如源端文件名带有时间字段“2017-10-15 20:25:26”，这个时刻生成的文件为“/opt/data/file_20171015202526.data”，则在创建作业时，参数配置如下：过滤类型：选择“通配符”。文件过滤器：配置为“*${dateformat(yyyyMMdd,-1,DAY)}*”（这是CDM支持的日期宏变量格式，详见时间宏变量使用解析）。图1 文件过滤配置作业定时自动执行，“重复周期”为1天。这样每天就可以把昨天生成的文件都导入到目的端目录，实现增量同步。文件增量迁移场景下，“路径过滤器”的使用方法同“文件过滤器”一样，需要路径名称里带有时间字段，这样可以定期增量同步指定目录下的所有文件。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-文件增量迁移:时间过滤

时间过滤参数位置：在创建表/文件迁移作业时，如果源端数据源为文件类型，那么源端作业配置下的高级属性中，“时间过滤”参数选择“是”。参数原理：“起始时间”和“终止时间”参数中输入时间值后，只有修改时间介于起始时间和终止时间之间（时间区间为左闭右开，即等于起始时间也在区间之内）的文件才会被CDM迁移。配置样例：例如需要CDM只同步2021年1月1日~2022年1月1日生成的文件到目的端，则参数配置如下：时间过滤器：选择为“是”。起始时间：配置为2021-01-01 00:00:00（格式要求为yyyy-MM-dd HH:mm:ss）。终止时间：配置为2022-01-01 00:00:00（格式要求为yyyy-MM-dd HH:mm:ss）。图2 时间过滤这样CDM作业就只迁移2021年1月1日~2022年1月1日时间段内生成的文件，下次作业再启动时就可以实现增量同步。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-HBase/CloudTable增量迁移

HBase/CloudTable增量迁移使用CDM导出HBase（包括MRS HBase、FusionInsight HBase、Apache HBase）或者表格存储服务（CloudTable）的数据时，支持导出指定时间段内的数据，配合CDM的定时任务，可以实现HBase/CloudTable的增量迁移。如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。在创建CDM表/文件迁移的作业，源连接选择为HBase连接或CloudTable连接时，高级属性的可选参数中可以配置时间区间。图1 HBase时间区间起始时间（包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间及以后的数据。终止时间（不包含该值），格式为“yyyy-MM-dd HH:mm:ss”，表示只抽取该时间以前的数据。这2个参数支持配置为时间宏变量，例如：起始时间配置为${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)}时，表示只导出昨天以后的数据。终止时间配置为${dateformat(yyyy-MM-dd HH:mm:ss)}时，表示只导出当前时间以前的数据。这2个参数同时配置后，CDM就只导出前一天内的数据，再将该作业配置为每天0点执行一次，就可以增量同步每天新生成的数据。父主题：增量迁移原理介绍

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:时间宏变量和定时任务配合完成增量同步

时间宏变量和定时任务配合完成增量同步这里列举两个简单的使用场景：数据库表中存在表示时间的列DS，类型为“varchar(30)”，插入的时间格式类似于“2017-xx-xx”。定时任务中，重复周期为1天，每天的凌晨0点执行定时任务。配置“Where子句”为DS='${dateformat(yyyy-MM-dd,-1,DAY)}'，这样就可以在每天的凌晨0点导出前一天产生的所有数据。数据库表中存在表示时间的列time，类型为“Number”，插入的时间格式为时间戳。定时任务中，重复周期为1天，每天的凌晨0点执行定时任务。配置“Where子句”为time between ${timestamp(-1,DAY)} and ${timestamp()}，这样就可以在每天的凌晨0点导出前一天产生的所有数据。其它的配置方式原理相同。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:时间变量宏定义具体展示

时间变量宏定义具体展示假设当前时间为“2017-10-16 09:00:00”，时间变量宏定义具体如表1所示。表1 时间变量宏定义具体展示宏变量含义实际显示效果 ${dateformat(yyyy-MM-dd)} 以yyyy-MM-dd格式返回当前时间。 2017-10-16 ${dateformat(yyyy/MM/dd)} 以yyyy/MM/dd格式返回当前时间。 2017/10/16 ${dateformat(yyyy_MM_dd HH:mm:ss)} 以yyyy_MM_dd HH:mm:ss格式返回当前时间。 2017_10_16 09:00:00 ${dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)} 以yyyy-MM-dd HH:mm:ss格式返回时间，时间为当前时间的前一天。 2017-10-15 09:00:00 ${timestamp()} 返回当前时间的时间戳，即1970年1月1日（00:00:00 GMT）到当前时间的毫秒数。 1508115600000 ${timestamp(-10, MINUTE)} 返回当前时间点10分钟前的时间戳。 1508115000000 ${timestamp(dateformat(yyyyMMdd))} 返回今天0点的时间戳。 1508083200000 ${timestamp(dateformat(yyyyMMdd,-1,DAY))} 返回昨天0点的时间戳。 1507996800000 ${timestamp(dateformat(yyyyMMddHH))} 返回当前整小时的时间戳。 1508115600000

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:路径和表名的时间宏变量

路径和表名的时间宏变量如图1所示，如果将：源端的“表名”配置为“CDM_/${dateformat(yyyy-MM-dd)}”。目的端的“写入目录”配置为“/opt/ttxx/${timestamp()}”。经过宏定义转换，这个作业表示：将Oracle数据库的“SQOOP.CDM_20171016”表中数据，迁移到HDFS的“/opt/ttxx/1508115701746”目录中。图1 源表名和写入目录配置为时间宏变量目前也支持一个表名或路径名中有多个宏定义变量，例如“/opt/ttxx/${dateformat(yyyy-MM-dd)}/${timestamp()}”，经过转换后为“/opt/ttxx/2017-10-16/1508115701746”。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:Where子句中的时间宏变量

Where子句中的时间宏变量以SQOOP.CDM_20171016表为例，该表中存在表示时间的列DS，如图2所示。图2 表数据假设当前时间为“2017-10-16”，要导出前一天的数据（即DS=‘2017-10-15’），则可以在创建作业时配置“Where子句”为DS='${dateformat(yyyy-MM-dd,-1,DAY)}'，即可将符合DS=‘2017-10-15’条件的数据导出。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:dateformat

dateformat dateformat支持两种形式的参数： dateformat(format) format表示返回日期的格式，格式定义参考“java.text.SimpleDateFormat.java”中的定义。例如当前日期为“2017-10-16 09:00:00”，则“yyyy-MM-dd HH:mm:ss”表示“2017-10-16 09:00:00”。 dateformat(format, dateOffset, dateType) format表示返回日期的格式。 dateOffset表示日期的偏移量。 dateType表示日期的偏移量的类型。目前dateType支持以下几种类型：SECOND（秒），MINUTE（分钟），HOUR（小时），DAY（天），MONTH（月），YEAR（年）。其中MONTH（月），YEAR（年）的偏移量类型存在特殊场景：对于年、月来说，若进行偏移后实际没有该日期，则按照日历取该月最大的日期。不支持在源端和目的端的“时间过滤”参数中的起始时间、终止时间使用年、月的偏移。例如当前日期为“2023-03-01 09:00:00”，则： “dateformat(yyyy-MM-dd HH:mm:ss, -1, YEAR)”表示当前时间的前一年，也就是“2022-03-01 09:00:00”。 “dateformat(yyyy-MM-dd HH:mm:ss, -3, MONTH)”表示当前时间的前三月，也就是“2022-12-01 09:00:00”。 “dateformat(yyyy-MM-dd HH:mm:ss, -1, DAY)”表示当前时间的前一天，也就是“2023-02-28 09:00:00”。 “dateformat(yyyy-MM-dd HH:mm:ss, -1, HOUR)”表示当前时间的前一小时，也就是“2023-03-01 08:00:00”。 “dateformat(yyyy-MM-dd HH:mm:ss, -1, MINUTE)”表示当前时间的前一分钟，也就是“2023-03-01 08:59:00”。 “dateformat(yyyy-MM-dd HH:mm:ss, -1, SECOND)”表示当前时间的前一秒，也就是“2023-03-01 08:59:59”。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-时间宏变量使用解析:timestamp

timestamp timestamp支持两种形式的参数： timestamp() 返回当前时间的时间戳，即从1970年到现在的毫秒数，如1508078516286。 timestamp(dateOffset, dateType) 返回经过时间偏移后的时间戳，“dateOffset”和“dateType”表示日期的偏移量以及偏移量的类型。例如当前日期为“2017-10-16 09:00:00”，则“timestamp(-10, MINUTE)”返回当前时间点10分钟前的时间戳，即“1508115000000”。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-管理中心数据搬迁:旧空间导出资源

旧空间导出资源请您登录控制台首页，选择并进入旧工作空间的“管理中心”模块，然后执行如下操作进行资源导出。参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。在管理中心页面，单击“资源迁移”，进入资源迁移页面。图1 资源迁移单击“新建导出”，配置文件的OBS存储位置和文件名称。图2 选择导出文件单击“下一步”，勾选导出的模块。图3 勾选导出的模块单击“下一步”，等待导出完成，资源包导出到所设置的OBS存储位置。图4 导出完成导出资源耗时1分钟仍未显示结果则表示导出失败，请重试。如果仍然无法导出，请联系客服或技术支持人员协助解决。导出完成后可在资源迁移任务列表中，单击对应任务的“下载”按钮，本地获取导出的资源包。图5 下载导出结果

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-管理中心数据搬迁:新空间导入资源

新空间导入资源请您登录控制台首页，选择并进入新工作空间的“管理中心”模块，然后执行如下操作进行资源导入。参考访问DataArts Studio实例控制台登录DataArts Studio管理控制台。在DataArts Studio控制台首页，选择对应工作空间的“管理中心”模块，进入管理中心页面。在管理中心页面，单击“资源迁移”，进入资源迁移页面。图6 资源迁移单击“新建导入”，选择导入方式后，配置待导入资源的OBS或本地路径。待导入的资源应为通过导出获取的zip文件。图7 配置待导入的资源存储路径单击“新建导入”，上传待导入资源。待导入的资源应为通过导出获取的zip文件单击“下一步”，勾选导入的资源类型。图8 勾选导入的资源类型如果选择导入数据源，则单击“下一步”需要配置数据连接。图9 配置数据连接单击“下一步”，等待导入任务下发，导入任务成功下发后系统提示“导入开始”。图10 导入开始系统提示“导入开始”后，单击“确定”，可在资源迁移任务列表中查看导入结果。其中存在子任务失败时，可单击红色子任务名，查看失败原因。图11 查看导入结果

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-管理中心数据搬迁:约束与限制

约束与限制资源导入可以基于OBS服务，也支持从本地导入。名称相同的采集任务不支持被重复迁移。名称相同的分类和标签不支持被重复迁移。待导入的资源应为通过导出获取的zip文件，导入时系统会进行资源校验。由于安全原因，导出连接时没有导出连接密码，需要在导入时自行输入。仅企业版支持数据目录（分类、标签、采集任务）导出，专家版暂不支持。导入文件时，OBS和本地方式均限制文件大小不超过10MB。

数据治理中心 DATAARTS STUDIO
数据治理中心 DATAARTS STUDIO-MongoDB/DDS增量迁移

MongoDB/DDS增量迁移使用CDM导出MongoDB或者DDS的数据时，支持导出指定时间段内的数据，配合CDM的定时任务，可以实现MongoDB/DDS的增量迁移。如果配置了时间宏变量，通过DataArts Studio数据开发调度CDM迁移作业时，系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”，而不是“CDM作业实际启动时间-偏移量”。在创建CDM表/文件迁移的作业，源连接选择为MongoDB连接或者DDS连接时，高级属性的可选参数中可以配置查询筛选。图1 MongoDB查询筛选此参数支持配置为时间宏变量，例如起始时间配置为{"ts":{$gte:ISODate("${dateformat(yyyy-MM-dd'T'HH:mm:ss.SSS'Z',-1,DAY)}")}}，表示查找ts字段中大于时间宏转换后的值，即只导出昨天以后的数据。参数配置后，CDM就只导出前一天内的数据，再将该作业配置为每天0点执行一次，就可以增量同步每天新生成的数据。父主题：增量迁移原理介绍

数据治理中心 DATAARTS STUDIO 增量迁移原理介绍
数据治理中心 DATAARTS STUDIO-场景介绍:场景描述

场景描述 H公司是国内一家收集主要贸易国贸易统计及买家数据的商业机构，拥有大量的贸易统计数据库，其数据广泛应用于产业研究、行业研究、国际贸易促进等方面。在这之前，H公司采用其自建的大数据集群，并安排专人维护，每年固定购买电信联通双线专用带宽，在机房、电力、专网、服务器、运维方面进行高额投入，但其在面对客户不断变化的业务诉求时，因为人员投入不足，大数据集群能力不匹配，而无法聚焦业务创新，使得存量100T的数据只有4%的利用率。在将本地的贸易统计数据迁移到华为云之后，基于华为公有云的大数据分析能力，可帮助H公司屏蔽大数据基础设施复杂的构建、维护过程，使其客户人员可以全身心聚焦业务创新，盘活100T的存量数据，使资产最大化变现。 CDM和DLI服务按需收费，帮助H公司客户释放了维护人员并降低了专用带宽成本，使得维护成本相比线下数据中心降低了70%，且使用门槛低，可实现已有数据的平滑迁移，使新业务上线周期相比之前缩短了50%。

数据治理中心 DATAARTS STUDIO 案例：贸易数据统计与分析
数据治理中心 DATAARTS STUDIO-场景介绍:场景任务

场景任务根据客户原始数据采集处理系统中已有的H公司的数据（例如：贸易详单数据和基础信息数据），基于CDM+OBS+DLI完成贸易统计分析。图1 场景方案 DLI创建OBS外表，对OBS表数据存储格式有所要求：使用DataSource语法创建OBS表时，支持orc，parquet，json，csv，carbon，avro类型。使用Hive语法创建OBS表时，支持TEXTFILE, AVRO, ORC, SEQUENCEFILE, RCFILE, PARQUET, CARBON类型。如果原始数据表存储格式不满足要求，您可以通过CDM将原始数据直接导入到DLI中进行分析，无需上传OBS。

数据治理中心 DATAARTS STUDIO 案例：贸易数据统计与分析

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线