华为云用户手册

  • 查看成果数据/原始数据列表 您可根据实际需求查看成果数据/原始数据列表。 登录KooMap管理控制台。 在左侧导航栏选择“卫星影像”下的“数据管理”菜单,然后在右侧页面单击“影像数据”页签。 单击蓝色字体“成果数据”或“原始数据”,分别查看原始数据或成果数据列表。 单击“成果数据”:查看处理成当前成果数据用到的所有原始数据列表。 图2 查看原始数据列表 单击“原始数据”:查看使用当前原始数据处理后的所有成果数据列表。 图3 查看成果数据列表
  • 删除卫星影像 您可根据实际需求删除卫星影像。状态为“迁入中”、“迁出中”、“删除中”的卫星影像无法删除。 登录KooMap管理控制台。 在左侧导航栏选择“卫星影像”下的“数据管理”菜单,然后在右侧页面单击“影像数据”页签。 单个或批量删除卫星影像。 单个删除:单击卫星影像操作列“更多”,选择“删除”。 批量删除:勾选待删除的卫星影像,单击“批量操作”,选择“批量删除”。批量删除总数最多100条。 在确认删除对话框中输入“DELETE”,单击“确定”,删除卫星影像。
  • 迁移卫星影像 您可根据实际需求将KooMap存储空间内的卫星影像迁移到OBS。状态为“迁入中”、“迁出中”、“迁入失败”和“删除中”的卫星影像不能迁移。单个或批量迁移的单条卫星影像文件都需满足:文件总大小不能大于10TB,总个数最多1万个。 登录KooMap管理控制台。 在左侧导航栏选择“卫星影像”下的“数据管理”菜单,然后在右侧页面单击“影像数据”页签。 单个或批量迁移卫星影像。 单个迁移:单击卫星影像操作列“更多”,选择“迁移”。 批量迁移:勾选待迁移的卫星影像,单击“批量操作”,选择“批量迁移”。批量迁移总数最多100条。 在弹出来的页面设置迁出的桶域名和路径。 表1 迁移卫星影像说明 参数 说明 桶域名 必填项。 根据界面提示输入OBS桶访问域名。 示例:example-bucket.obs.cn-north-4.myhuaweicloud.com example-bucket:OBS桶名 .obs.cn-north-4.myhuaweicloud.com:域名 迁出路径 必填项。 根据界面提示输入影像迁出路径。 路径参考格式为:path/to/files 单击“确定”,迁移卫星影像。 迁移过程中“运行状态”为“迁出中”,迁移成功后,“运行状态”变更为“完成”。
  • 下载卫星影像 您可根据实际需求下载卫星影像到本地。状态为“迁入中”、“迁出中”、“删除中”和“迁入失败”的卫星影像不能下载。 登录KooMap管理控制台。 在左侧导航栏选择“卫星影像”下的“数据管理”菜单,然后在右侧页面单击“影像数据”页签。 单个或批量下载卫星影像。 单个下载:单击卫星影像操作列“更多”,选择“下载”。 批量下载:勾选待下载的卫星影像,单击“批量操作”,选择“批量下载”。批量下载总数最多100条。 单击“确定”,卫星影像保存到浏览器默认下载路径。
  • 预览成果影像 您可在界面预览COG格式的成果影像。 历史处理的成果影像如果不是COG格式,则不支持在线预览。 登录KooMap管理控制台。 在左侧导航栏选择“卫星影像”下的“数据管理”菜单,然后在右侧页面单击“影像数据”页签。 选择“数据类型”为“成果数据”的卫星影像,单击操作列“预览”,进入“影像预览”界面。 在“影像预览”界面,您可根据需求预览成果影像。 图1 影像预览界面 :单击此按钮,放大预览影像。 :单击此按钮,缩小预览影像。 :单击此按钮,刷新预览影像。 :单击此按钮,在预览界面左下角拖动红框,预览圈定范围内的影像。
  • 管理权限 您可以使用统一身份认证服务(Identity and Access Management,简称IAM)对您所拥有的KooMap进行精细的权限管理。通过IAM,您可以: 根据企业的业务组织,在您的华为账号中,给企业中不同职能部门的员工创建IAM用户,让员工拥有唯一安全凭证,并使用KooMap服务。 将KooMap资源委托给更专业、高效的其他华为账号或者云服务,这些账号或者云服务可以根据权限进行代运维。 如果华为账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用KooMap服务的其它功能。本章节为您介绍对用户授权的方法,操作流程如图1所示。 目前,KooMap只支持KooMap FullAccess策略,授予该策略的用户拥有KooMap服务的所有权限。 图1 给用户授权KooMap权限流程 用户授权KooMap权限步骤如下: 创建用户组并授权。 在IAM控制台创建用户组,并授予KooMap的操作员权限“KooMap FullAccess”。 创建用户并加入用户组。 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,如能进入KooMap首页且看到工作共享空间列表,则表示“KooMap FullAccess”权限已生效。
  • 查询成果数据 您可根据实际需求查询符合过滤条件的精修后处理成果数据。 登录KooMap管理控制台。 在左侧导航栏选择“实景三维”下的“数据管理”菜单,然后在页面右侧单击“精修后处理成果数据”页签。 在页面右上角输入过滤条件。 过滤条件包括原始任务名称、后处理任务名称和后处理任务创建起止时间。 单击或按回车键,界面显示符合过滤条件的全部精修后处理成果数据。 单击列表中蓝色字体的原始任务名称,可查看当前精修后处理任务对应的原始建模任务。
  • 下载成果数据 您可根据实际需求下载精修后处理成果数据到本地。 登录KooMap管理控制台。 在左侧导航栏选择“实景三维”下的“数据管理”菜单,然后单击右侧的“精修后处理成果数据”页签。 单击成果数据操作列“下载”,选择下载OSGB文件。文件以zip压缩包保存到浏览器默认下载路径。 图1 下载精修后处理成果数据 zip格式(OSGB文件)的成果数据需全选解压到同一个文件目录下,您可选择市面主流的商业渲染软件打开OSGB文件。如无法打开下载的OSGB文件,请联系华为技术支持确认。
  • 操作步骤 登录KooMap管理控制台。 在左侧导航栏选择“工作共享空间管理”,然后在右侧页面单击待创建任务的工作共享空间名称。 选择“实景三维概览”页签,进入任务概览页。 选择待创建精修后处理任务的显式辐射场实景三维任务卡片,直接单击卡片上的进入“精修流程”页面。 图1 新增精修后处理任务 在弹出的“精修流程”页面,了解精修流程,并创建精修后处理任务。 下载实景三维建模成果数据。 下载并仔细阅读精修规范后,再进行离线精修实景三维建模成果数据。 图2 下载并阅读精修规范 在“后处理任务别名”输入信息,单击,新增的后处理任务将在“后处理任务列表”中显示。 在后处理任务列表操作列单击“上传文件夹”,系统弹出的“选择文件夹”弹窗。 单击“选择原始文件夹”和“选择精修后文件夹”右侧“上传文件”分别上传原始建模成果数据和离线精修后成果数据。上传文件夹前,请鼠标悬停在查看注意事项和要求。 原始文件夹:显式辐射场实景三维建模任务完成后的成果数据(被修改的Tile块数据)所在的文件夹(下载链接见5.a)。 精修后文件夹:离线精修成果数据(修改后的Tile块数据)所在文件夹。 单击“确定”,完成精修后处理任务的创建。 创建完成后,原始的显式辐射场实景三维建模任务卡片上会显示精修任务进度。 图3 查看精修进度
  • 任务概述 KooMap服务支持以任务的形式对倾斜摄影数据进行专业处理,生成各个行业应用可使用的实景三维数据。实景三维建模类型包括纹理模型实景三维和显式辐射场实景三维(KooMap服务专有),每种建模类型下您还可根据实际情况选择创建有控建模或者无控建模任务类型。实景三维建模(仅适用于显式辐射场实景三维)完成后,您还可根据实际需求决定是否对建模后的成果数据进行精修和精修后处理。 建模类型: 纹理模型实景三维:对多视角影像进行分布式并行处理,生成带纹理的三维Mesh模型数据。支持影像畸变较正,纹理贴图、纹理图匀光匀色,降低影像畸变对精度的影响以及数据采集光照差异造成的色彩不均匀的问题。 显式辐射场实景三维:支持照片级重建,空间测量,真实还原多视角光影效果,显著提升模型真实感。支持业界主流渲染引擎的实时渲染,无额外适配成本。 任务类型: 无控建模:根据设置的建模参数,对原始影像进行实景三维建模。建模过程中无需进行人工刺点。无控建模速度快,适用于不要求超高精度或绝对地理坐标的场景。 有控建模:根据设置空三建模参数,对原始影像先进行空三建模,然后利用生产资料对应的像控点坐标信息在原始图片上进行人工刺点,适用于需要生成高精度或绝对地理坐标的场景。 一般情况下,有控建模后的成果模型数据比无控建模精度更高。 刺点:是指将像控点位置标识到图片上的过程。 父主题: 实景三维建模任务
  • 任务概述 KooMap服务支持以任务的形式对导入的卫星影像进行处理。卫星影像处理等级包括L2、L3、L4、L5,具体等级描述如表1。 表1 处理等级 处理等级 等级描述 L2等级 对原始卫星数据进行色彩增强与几何粗纠正处理,输出L2级的成果数据。 可实现几何接边误差小于100像素。 L3等级 对原始卫星数据进行色彩增强与几何精纠正处理,输出L3级的成果数据。可实现几何接边误差小于10像素。 L4等级 对原始卫星数据进行色彩增强与正射纠正处理,输出L4级的成果数据。 可实现几何接边误差小于2像素。 L5等级 在L4级基础上执行影像匀色、镶嵌处理,输出L5级的成果数据,并支持矢量边界裁切、瓦片金字塔形式的成果数据输出。 金字塔切割:利用金字塔分层切片方法进行影像的切割。 矢量切割:利用矢量的属性、边界进行影像的裁剪。 金字塔图像:以多分辨率来解释图像的一种有效但概念简单的结构就是影像金字塔。一幅图像的金字塔就是一系列以金字塔形状排列的分辨率逐渐降低的图像集合。最底层的分辨率最高,并且数据量最大。随着层数的增加,其分辨率逐渐降低,数据量也按比例减少。 矢量数据:一般通过记录坐标的方式尽可能地将地理实体的空间位置表现得准确无误。 父主题: 卫星影像生产任务
  • 文件格式问题解决方法 数据库的数据导出到CSV文件,由于数据中含有分隔符逗号,造成导出的CSV文件中数据混乱。 CDM提供了以下几种解决方法: 指定字段分隔符 使用数据库中不存在的字符,或者是极少见的不可打印字符来作为字段分隔符。例如可以在目的端指定“字段分隔符”为“%01”,这样导出的字段分隔符就是“\u0001”,详情可见表1。 使用包围符 在目的端作业参数中开启“使用包围符”,这样数据库中如果字段包含了字段分隔符,在导出到CSV文件的时候,CDM会使用包围符将该字段括起来,使之作为一个字段的值写入CSV文件。 数据库的数据包含换行符 场景:使用CDM先将MySQL中的某张表(表的某个字段值中包含了换行符\n)导出到CSV格式的文件中,然后再使用CDM将导出的CSV文件导入到MRS HBase,发现导出的CSV文件中出现了数据被截断的情况。 解决方法:指定换行符。 在使用CDM将MySQL的表数据导出到CSV文件时,指定目的端的换行符为“%01”(确保这个值不会出现在字段值中),这样导出的CSV文件中换行符就是“%01”。然后再使用CDM将CSV文件导入到MRS HBase时,指定源端的换行符为“%01”,这样就避免了数据被截断的问题。
  • 文件格式的公共参数 启动作业标识文件 这个主要用于自动化场景中,CDM配置了定时任务,周期去读取源端文件,但此时源端的文件正在生成中,CDM此时读取会造成重复写入或者是读取失败。所以,可以在源端作业参数中指定启动作业标识文件为“ok.txt”,在源端生成文件成功后,再在文件目录下生成“ok.txt”,这样CDM就能读取到完整的文件。 另外,可以设置超时时间,在超时时间内,CDM会周期去查询标识文件是否存在,超时后标识文件还不存在的话,则作业任务失败。 启动作业标识文件本身不会被迁移。 作业成功标识文件 文件系统为目的端的时候,当任务成功时,在目的端的目录下,生成一个空的文件,标识文件名由用户来指定。一般和“启动作业标识文件”搭配使用。 这里需要注意的是,不要和传输的文件混淆,例如传输文件为“finish.txt”,但如果作业成功标识文件也设置为“finish.txt”,这样会造成这两个文件相互覆盖。 过滤器 使用CDM迁移文件的时候,可以使用过滤器来过滤文件。支持通过通配符或时间过滤器来过滤文件。 选择通配符时,CDM只迁移满足过滤条件的目录或文件。 选择时间过滤器时,只有文件的修改时间晚于输入的时间才会被传输。 例如用户的“/table/”目录下存储了很多数据表的目录,并且按天进行了划分DRIVING_BEHAVIOR_20180101~DRIVING_BEHAVIOR_20180630,保存了DRIVING_BEHAVIOR从1月到6月的所有数据。如果只想迁移DRIVING_BEHAVIOR的3月份的表数据,那么需要在作业第一步指定源目录为“/table”,过滤类型选择“通配符”,然后指定“路径过滤器”为“DRIVING_BEHAVIOR_201803*”。
  • JSON格式 这里主要介绍JSON文件格式的以下内容: CDM支持解析的JSON类型 记录节点 从JSON文件复制数据 CDM支持解析的JSON类型:JSON对象、JSON数组。 JSON对象:JSON文件包含单个对象,或者以行分隔/串连的多个对象。 单一对象JSON { "took" : 190, "timed_out" : false, "total" : 1000001, "max_score" : 1.0 } 行分隔的JSON对象 {"took" : 188, "timed_out" : false, "total" : 1000003, "max_score" : 1.0 } {"took" : 189, "timed_out" : false, "total" : 1000004, "max_score" : 1.0 } 串连的JSON对象 { "took": 190, "timed_out": false, "total": 1000001, "max_score": 1.0 } { "took": 191, "timed_out": false, "total": 1000002, "max_score": 1.0 } JSON数组:JSON文件是包含多个JSON对象的数组。 [{ "took" : 190, "timed_out" : false, "total" : 1000001, "max_score" : 1.0 }, { "took" : 191, "timed_out" : false, "total" : 1000001, "max_score" : 1.0 }] 记录节点 记录数据的根节点。该节点对应的数据为JSON数组,CDM会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 从JSON文件复制数据 示例一 从行分隔/串连的多个对象中提取数据。JSON文件包含了多个JSON对象,例如: { "took": 190, "timed_out": false, "total": 1000001, "max_score": 1.0 } { "took": 191, "timed_out": false, "total": 1000002, "max_score": 1.0 } { "took": 192, "timed_out": false, "total": 1000003, "max_score": 1.0 } 如果您想要从该JSON对象中提取数据,使用以下格式写入到数据库,只需要在作业第一步指定文件格式为“JSON格式”,指定JSON类型为“JSON对象”,然后在作业第二步进行字段匹配即可。 表2 示例 took timedOut total maxScore 190 false 1000001 1.0 191 false 1000002 1.0 192 false 1000003 1.0 示例二 从记录节点中提取数据。JSON文件包含了单个的JSON对象,但是其中有效的数据在一个数据节点下,例如: { "took": 190, "timed_out": false, "hits": { "total": 1000001, "max_score": 1.0, "hits": [{ "_id": "650612", "_source": { "name": "tom", "books": ["book1","book2","book3"] } }, { "_id": "650616", "_source": { "name": "tom", "books": ["book1","book2","book3"] } }, { "_id": "650618", "_source": { "name": "tom", "books": ["book1","book2","book3"] } }] } } 如果想以如下格式写入到数据库,则需要在作业第一步指定文件格式为“JSON格式”,指定JSON类型为“JSON对象”,并且指定记录节点为“hits.hits”,然后在作业第二步进行字段匹配。 表3 示例 ID SourceName SourceBooks 650612 tom ["book1","book2","book3"] 650616 tom ["book1","book2","book3"] 650618 tom ["book1","book2","book3"] 示例三 从JSON数组中提取数据。JSON文件是包含了多个JSON对象的JSON数组,例如: [{ "took" : 190, "timed_out" : false, "total" : 1000001, "max_score" : 1.0 }, { "took" : 191, "timed_out" : false, "total" : 1000002, "max_score" : 1.0 }] 如果想以如下格式写入到数据库,需要在作业第一步指定文件格式为“JSON格式”,指定JSON类型为“JSON数组”,然后在作业第二步进行字段匹配。 表4 示例 took timedOut total maxScore 190 false 1000001 1.0 191 false 1000002 1.0 示例四 在解析JSON文件的时候搭配转换器。在示例二前提下,想要把hits.max_score字段附加到所有记录中,即以如下格式写入到数据库中: 表5 示例 ID SourceName SourceBooks MaxScore 650612 tom ["book1","book2","book3"] 1.0 650616 tom ["book1","book2","book3"] 1.0 650618 tom ["book1","book2","book3"] 1.0 则需要在作业第一步指定文件格式为“JSON格式”,指定JSON类型为“JSON对象”,并且指定记录节点为“hits.hits”,然后在作业第二步添加转换器,操作步骤如下: 单击添加字段,新增一个字段。 图2 添加字段 在添加的新字段后面,单击添加字段转换器。 图3 添加字段转换器 创建“表达式转换”的转换器,表达式输入“1.0”,然后保存。 图4 配置字段转换器
  • 二进制格式 如果想要在文件系统间按原样复制文件,则可以选择二进制格式。二进制格式传输文件到文件的速率高、性能稳定,且不需要在作业第二步进行字段匹配。 文件传输的目录结构 CDM的文件传输,支持单文件,也支持一次传输目录下所有的文件。传输到目的端后,目录结构会保持原样。 增量迁移文件 使用CDM进行二进制传输文件时,目的端有一个参数“重复文件处理方式”,可以用作文件的增量迁移,具体请参见文件增量迁移。 增量迁移文件的时候,选择“重复文件处理方式”为“跳过重复文件”,这样如果源端有新增的文件,或者是迁移过程中出现了失败,只需要再次运行任务,已经迁移过的文件就不会再次迁移。 写入到临时文件 二进制迁移文件时候,可以在目的端指定是否写入到临时文件。如果指定了该参数,在文件复制过程中,会将文件先写入到一个临时文件中,迁移成功后,再进行rename或move操作,在目的端恢复文件。 生成文件MD5值 对每个传输的文件都生成一个MD5值,并将该值记录在一个新文件中,新文件以“.md5”作为后缀,并且可以指定MD5值生成的目录。
  • 通过逆向数据库导入逻辑实体 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到逻辑实体目录中,使其变成逻辑实体。 在数据架构控制台,单击左侧导航树中的“关系建模”,进入关系建模页面,选择一个逻辑实体进入。 在逻辑实体列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表7 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到逻辑实体目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见管理数据连接。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在逻辑实体中已存在同名的表,选择是否更新已有的逻辑实体。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 *数据表 选择全部或部分需导入的数据表。 图15 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图16 逆向结果
  • 导入 导入EXCEL 单击逻辑实体列表上方“导入”中的“导入EXCE”。在“导入表”对话框中,选择“导入配置”页签,单击“下载关系建模导入模板”。 图17 导入EXCEL 下载关系建模导入模板后,编辑完成后保存至本地。 选择是否更新已有数据。 如果系统中已有的编码和模板中的编码相同,系统则认为是数据重复。 不更新:当数据重复时,不会替换系统中原有的数据。 更新:当数据重复时 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。 系统中的原有数据为发布状态,则会生成下展数据。 单击“添加文件”,选择编辑完成的导入模板。 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。 单击“关闭”。 导入LDM 导入LDM模型时,请先选择一个主题。不选择则无法导入。 当前仅支持导入逻辑模型。 请准备好需要导入的.ldm格式的逻辑模型。该逻辑模型是从第三方系统Powet Designer导出来的。 导入的LDM模型支持的版本:16.x 单击逻辑实体列表上方“导入”中的“导入LDM”。在“导入表”对话框中,选择“导入配置”页签。 图18 导入LDM 选择是否更新已有数据。 不更新:当数据重复时,不会替换系统中原有的数据。 更新:当数据重复时 系统中的原有数据为草稿状态,则会覆盖生成新的草稿数据。 系统中的原有数据为发布状态,则会生成下展数据。 单击“添加文件”,选择提前准备好的.ldm格式的逻辑模型。 单击“上传文件”,上传完成后,自动跳转到“上次导入”页签,查看已导入的数据。 单击“关闭”。
  • 新建逻辑模型 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图1 选择数据架构 在数据架构控制台,单击左侧导航树中的“关系建模”。 在“关系建模”页面,如果当前未创建过关系模型,系统会弹出“新建分层治理模型”提示框,提示您创建关系建模下SDI和DWI层的物理模型。创建完成后,您可以在逻辑模型处单击按钮新建逻辑模型。 根据数据治理方法论,以及关系建模和维度建模方法,数仓分层的模型默认为4层,层级含义介绍如下: 关系建模下包含SDI层和DWI层两层模型,物理模型归属于两层模型之一。 SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。 DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 维度建模需要基于维度,新建DWR层模型,最终将数据汇总到DM层模型中。 DWR:Data Warehouse Report,又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。 DM (Data Mart):又称数据集市。DM面向展现层,数据有多级汇总。 数仓分层的4层层级的名称支持由管理员自定义,单击层级名后的即可重命名。重命名建议能够区分不同层级,规则为只能包含英文字母、中文、数字、下划线,且以英文字母或中文开头。 图2 新建分层治理模型 图3 新建逻辑模型 在弹出窗口中配置如下参数,然后单击“确定”。 图4 配置逻辑模型 表1 参数描述 参数名称 说明 *模型名称 只能包含中文、英文字母、数字和下划线。 前缀校验 只能包含英文字母、数字和下划线,且英文字母开头。 说明: 在逻辑模型中新建、修改、导入逻辑实体时,会校验是否有前缀,没有的话会校验失败。进行逆向操作时,会校验是否有前缀,没有的话系统会自动添加前缀。 描述 逻辑模型的描述信息。
  • 逻辑模型转换为物理模型 完成逻辑模型的创建后,您可以将逻辑模型转换为物理模型,支持转换为新的物理模型或已有的物理模型。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图10 选择数据架构 在数据架构控制台,单击左侧导航树中的“关系建模”。 在总览图中找到所需要的逻辑模型,将光标移动到该卡片上,单击该模型的转换按钮。 图11 逻辑模型转换 在“转换为物理模型”对话框中,配置如下参数,然后单击“确定”。 图12 转换为物理模型 逻辑模型转换为物理模型时,系统会先校验是否有前缀,无前缀会自动添加前缀。 表6 参数描述 参数名称 说明 *模型名称 逻辑模型所需转换的物理模型的名称。您可以输入一个新的模型名称,系统会创建该新模型,也可以在下拉列表中选择一个已有的模型。 模型名称只能包含中文、英文字母、数字和下划线。 *更新已有表 当选择了模型名称后才显示该参数。 不更新 更新 如果选择更新已有表,则需要选择“物理表更新方式”。 不删除多余字段 删除多余字段 *数据连接类型 在下拉列表中选择数据连接类型。 数据连接 选择所需要的数据连接。同一个关系模型一般建议使用统一的数据连接。 如果您还未创建与数据源之间的数据连接,请前往DataArts Studio管理中心控制台进行创建,详情请参见管理数据连接。 数据库 选择数据库。如果您还未创建数据库,可以前往DataArts Studio数据开发控制台进行创建,详情请参见新建数据库。 选择逻辑实体 全部:将所有的逻辑实体转换为物理表。 部分:将选择的部分逻辑实体转换为物理表。 队列 DLI队列。该参数仅DLI连接类型有效。 Schema DWS和POSTGRESQL的模式。该参数仅支持DWS和POSTGRESQL连接类型。 描述 描述信息。支持的长度为0~600个字符。 转换为物理模型后,您可以为该物理模型设置分层,您可以选择SDI层或DWI层。如图13,在物理模型中找到转换后的物理模型,将光标移动到该卡片上,单击该模型的编辑按钮,进入“编辑物理模型”弹窗。 图13 设置物理模型分层 进入“编辑物理模型”弹窗后,选择“数仓分层”,下拉选择SDI或DWI分层。 SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。 DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 图14 编辑物理模型
  • 配置FTP/SFTP源端参数 作业中源连接为FTP/SFTP连接时,源端作业参数如表1所示。 高级属性里的参数为可选参数,默认隐藏,单击界面上的“显示高级属性”后显示。 表1 FTP/SFTP作为源端时的作业参数 参数类型 参数名 说明 取值样例 基本参数 源目录或文件 待迁移数据的目录或单个文件路径。文件路径支持输入多个文件(最多50个),默认以“|”分隔,也可以自定义文件分隔符,具体请参见文件列表迁移。 待迁移数据的目录,将迁移目录下的所有文件(包括所有嵌套子目录及其子文件)。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 /ftp/a.csv|/ftp/b.txt 文件格式 指CDM以哪种格式解析数据,可选择以下格式: CSV格式:以CSV格式解析源文件,用于迁移文件到数据表的场景。 二进制格式:选择“二进制格式”时不解析文件内容直接传输,不要求文件格式必须为二进制。适用于文件到文件的原样复制。 JSON格式:以JSON格式解析源文件,一般都是用于迁移文件到数据表的场景。 说明: 当目的端为OBS数据源时,仅支持配置二进制格式。 CSV格式 JSON类型 当“文件格式”选择为“JSON格式”时,才有该参数。JSON文件中存储的JSON对象的类型,可以选择“JSON对象”或“JSON数组”。 JSON对象 记录节点 当“文件格式”选择为“JSON格式”并且“JSON类型”为“JSON对象”时,才有该参数。对该JSON节点下的数据进行解析,如果该节点对应的数据为JSON数组,那么系统会以同一模式从该数组中提取数据。多层嵌套的JSON节点以字符“.”分割。 data.list 高级属性 使用rfc4180解析器 当“文件格式”选择为“CSV格式”时,才有该参数。是否使用rfc4180解析器解析CSV文件。 否 换行符 文件中的换行符,默认自动识别“\n”、“\r”或“\r\n”。当“文件格式”选择为“CSV格式”时,才有该参数。 \n 字段分隔符 文件中的字段分隔符,使用Tab键作为分隔符请输入“\t”。当“文件格式”选择为“CSV格式”时,才有该参数。 , 使用包围符 选择“是”时,包围符内的字段分隔符会被视为字符串值的一部分,目前CDM默认的包围符为:"。 否 使用转义符 选择“是”时,CSV数据行中的\作为转义符使用。 选择“否”时,CSV中的\作为数据不会进行转义。CSV只支持\作为转义符。 是 使用正则表达式分隔字段 选择是否使用正则表达式分隔字段,当选择“是”时,“字段分隔符”参数无效。当“文件格式”选择为“CSV格式”时,才有该参数。 是 正则表达式 当“使用正则表达式分隔字段”选择为“是”时,才有该参数。 分隔字段的正则表达式,正则表达式写法请参考正则表达式分隔半结构化文本。 ^(\d.*\d) (\w*) \[(.*)\] ([\w\.]*) (\w.*).* 首行为标题行 “文件格式”选择“CSV格式”时才有该参数。在迁移CSV文件到表时,CDM默认是全部写入,如果该参数选择“是”,CDM会将CSV文件的前N行数据作为标题行,不写入目的端的表。 是 编码类型 文件编码类型,例如:“UTF-8”或“GBK”。只有文本文件可以设置编码类型,当“文件格式”选择为“二进制格式”时,该参数值无效。 UTF-8 压缩格式 选择对应压缩格式的源文件: 无:表示传输所有格式的文件。 GZIP:表示只传输GZIP格式的文件。 ZIP:表示只传输ZIP格式的文件。 TAR.GZ:表示只传输TAR.GZ格式的文件。 无 压缩文件后缀 压缩格式非无时,显示该参数。 该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。 * 启动作业标识文件 选择是否开启作业标识文件的功能。当源端路径下存在启动作业的标识文件时才启动作业,否则会挂起等待一段时间,等待时长在下方“等待时间”中配置。 是 文件分隔符 “源目录或文件”参数中如果输入的是多个文件路径,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。 | 标识文件名 选择开启作业标识文件的功能时,需要指定启动作业的标识文件名。指定文件后,只有在源端路径下存在该文件的情况下才会运行任务。该文件本身不会被迁移。 ok.txt 等待时间 选择开启作业标识文件的功能时,如果源路径下不存在启动作业的标识文件,作业挂机等待的时长,当超时后任务会失败。 等待时间设置为0时,当源端路径下不存在标识文件,任务会立即失败。 单位:秒。 10 过滤类型 满足过滤条件的路径或文件会被传输,该参数有“无”、“通配符”和“正则表达式”三种选择。具体使用方法可参见文件增量迁移。 无 目录过滤器 “过滤类型”选择“通配符”和“正则表达式”时,符合过滤器规则的目录,允许进行迁移。支持配置多个路径,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *input,*out 文件过滤器 “过滤类型”选择“通配符”和“正则表达式”时,符合过滤器规则的文件,允许进行迁移。支持配置多个文件,中间使用“,”分隔。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 *.csv 时间过滤 选择“是”时,可以根据文件的修改时间,选择性的传输文件。 是 起始时间 “时间过滤”选择“是”时,可以指定一个时间值,当文件的修改时间大于等于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss,-90,DAY))}表示:只迁移最近90天内的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-01 00:00:00 终止时间 “时间过滤”选择“是”时,可以指定一个时间值,当文件的修改时间小于该时间才会被传输,输入的时间格式需为“yyyy-MM-dd HH:mm:ss”。 该参数支持配置为时间宏变量,例如${timestamp(dateformat(yyyy-MM-dd HH:mm:ss))}表示:只迁移修改时间为当前时间以前的文件。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 2019-07-30 00:00:00 忽略不存在原路径/文件 如果将其设为“是”,那么作业在源路径不存在的情况下也能成功执行。 否 标识文件类型 选择开启作业标识文件的功能时,该参数才显示。 MARK_DONE:只有在源端路径下存在标识文件的情况下才会执行迁移任务。 MARK_DOING:只有在源端路径下不存在标识文件的情况下才会执行迁移任务。 MARK_DOING 是否跳过空行 “文件格式”选择“CSV格式”时,该参数才显示。 如果某行数据为空,则跳过此行。 否 null值 “文件格式”选择“二进制格式”时,该参数才显示。 由于文本文件中无法用字符串定义null值,此配置项定义将何种字符串标识为null。 否 MD5文件名后缀 “文件格式”选择“二进制格式”时,该参数才显示。 校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性。 .md5 父主题: 配置作业源端参数
  • 开发DWS SQL作业 DWS SQL脚本开发完成后,我们为DWS SQL脚本构建一个周期执行的作业,使得该脚本能定期执行。 创建一个批处理作业,作业名称为“job_dws_sql”。 然后进入到作业开发页面,拖动DWS SQL节点到画布中并单击,配置节点的属性。 图2 配置DWS SQL节点属性 关键属性说明: SQL脚本:关联开发DWS SQL脚本中开发完成的DWS SQL脚本“dws_sql”。 数据连接:默认选择SQL脚本“dws_sql”中设置的数据连接,支持修改。 数据库:默认选择SQL脚本“dws_sql”中设置的数据库,支持修改。 脚本参数:通过EL表达式获取"yesterday"的值,EL表达式如下: #{Job.getYesterday("yyyy-MM-dd")} 节点名称:默认显示为SQL脚本“dws_sql”的名称,支持修改。 作业编排完成后,单击,测试运行作业。 如果运行成功,单击画布空白处,在右侧的“调度配置”页面,配置作业的调度策略。 图3 配置调度方式 说明: 2021/08/06至2021/08/31,每天2点执行一次作业。 单击“提交”,执行调度作业,实现作业每天自动运行。
  • 删除维度 如果您已不再需要某个维度,可以删除该维度。如果待删除的维度已发布,则无法执行删除操作,您必须先将该维度下线后,才能执行删除操作,具体操作请参见下线维度。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中找到需要删除的维度,勾选该维度,然后单击维度列表上方“更多”中的“删除”按钮。 图12 删除 在系统弹出的“删除”对话框中,确认无误后,单击“确定”将维度删除。 删除弹框中的“删除物理表”勾选后,删除时将同步删除数据库里的物理表。
  • 发布维度 如果新建了维度但并未发布,可以执行以下步骤发布维度: 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中找到需要发布的维度,单击“发布”。 图8 发布维度 在弹出对话框中,选择审核人,单击“确认提交”,完成发布。 进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。 您也可以执行以下步骤批量发布维度: 在数据架构控制台,单击左侧导航树中的“维度建模”,进入相应页面后,选择“维度”页签。 在维度列表中勾选需要发布的维度,单击列表上方的“发布”。 图9 批量发布维度 在弹出对话框中,选择审核人和作业调度时间,单击“确认提交”,完成发布。 进行发布时,可以选择发布到生产环境或开发环境。默认发布到生产环境,不勾选则无法发布。 注意,此处“作业调度时间”指的是维度发布后,自动创建质量作业的调度时间。 图10 批量发布维度
  • 通过逆向数据库导入维度 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到维度目录中,使其变成维度。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。 在维度列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表5 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到维度目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见管理数据连接。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在维度中已存在同名的表,选择是否更新已有的维度。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 *数据表 选择全部或部分需导入的数据表。 图13 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图14 逆向结果
  • 通过逆向数据库导入事实表 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到事实表目录中,使其变成事实表。 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。 在事实表的列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表4 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到事实表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见管理数据连接。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在事实表中已存在同名的表,选择是否更新已有的事实表。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 *数据表 选择全部或部分需导入的数据表。 图16 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图17 逆向结果
  • 新建物理模型 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图1 选择数据架构 在数据架构控制台,单击左侧导航树中的“关系建模”。 在“关系建模”页面,如果当前未创建过关系模型,系统会弹出“新建分层治理模型”提示框,提示您创建关系建模下SDI和DWI层的物理模型。如果不是首次创建,可在物理模型处单击按钮新建物理模型。 根据数据治理方法论,以及关系建模和维度建模方法,数仓分层的模型默认为4层,层级含义介绍如下: 关系建模下包含SDI层和DWI层两层模型,物理模型归属于两层模型之一。 SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。 DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 维度建模需要基于维度,新建DWR层模型,最终将数据汇总到DM层模型中。 DWR:Data Warehouse Report,又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。 DM (Data Mart):又称数据集市。DM面向展现层,数据有多级汇总。 数仓分层的4层层级的名称支持由管理员自定义,单击层级名后的即可重命名。重命名建议能够区分不同层级,规则为只能包含英文字母、中文、数字、下划线,且以英文字母或中文开头。 图2 新建分层治理模型 图3 新建物理模型 在弹出窗口中配置如下参数,然后单击“确定”。 图4 配置物理模型 表1 参数描述 参数名称 说明 *模型名称 只能包含中文、英文字母、数字和下划线。 *数据连接类型 下拉选择数据连接类型。 数仓分层 下拉选择SDI或DWI分层。 SDI:Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。 DWI:Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。 前缀校验 只能包含英文字母、数字和下划线,且英文字母开头。 说明: 在物理模型中新建、修改、导入表时,会校验是否有前缀,没有的话会校验失败。进行逆向操作时,也会校验是否有前缀,没有的话系统会自动添加前缀。 描述 描述信息。支持的长度0~600字符。
  • 通过逆向数据库导入物理表 通过逆向数据库,您可以从其他数据源中将一个或多个已创建的数据库表导入到物理表目录中,使其变成物理表。 在数据架构控制台,单击左侧导航树中的“关系建模”,进入关系建模页面,选择一个物理表进入。 在物理表的列表上方,单击“逆向数据库”。 在“逆向数据库”对话框中,配置如下参数,然后单击“确定”。 表7 逆向数据库配置 参数名称 说明 *所属主题 在下拉列表中选择所属主题。 *数据连接类型 在下拉列表中将显示逆向数据库支持的数据连接类型,请选择所需要的数据连接类型。 *数据连接 选择数据连接。 如需从其他数据源逆向数据库到物理表目录中,需要先在DataArts Studio管理中心创建一个数据连接,以便连接数据源。创建数据连接的操作,请参见管理数据连接。 *数据库 选择数据库。 *Schema 下拉选择Schema。该参数仅DWS和POSTGRESQL模型的表有效。 *队列 DLI队列。仅当“数据连接类型”选择“DLI”时,该参数有效。 更新已有表 如果从其他数据源逆向过来的表,在物理表中已存在同名的表,选择是否更新已有的物理表。 名称来源 逆向后表名称/字段名称的来源,可以是描述或者是相应英文名,如表/字段未指定描述则固定使用英文名。 来自描述 来自英文名称 *数据表 选择全部或部分需导入的数据表。 图13 逆向配置 逆向数据库的结果会在“上次逆向”页面中显示。如果逆向成功,单击“关闭”。如果逆向失败,您可以查看失败原因,问题解决后,选中失败的表,然后单击“重新逆向”进行重试。 图14 逆向结果
  • 导入流程 在数据架构控制台,单击左侧导航树中的“流程设计”,进入流程设计页面。 单击流程列表上方的“导入”按钮导入流程。 在“导入流程”对话框中,根据页面提示配置如下参数,然后先单击“添加文件”后,再单击“上传文件”。 图5 导入流程 表2 导入配置参数说明 参数名 说明 更新已有数据 如果所要导入的流程,在DataArts Studio数据架构中已经存在,是否更新已有的流程。支持以下选项: 不更新:当流程已存在时,将直接跳过,不处理。 更新:当流程已存在时,更新已有的流程信息。 在导入流程时,只有创建或更新操作,不会删除已有的流程。 上传模板 选择所需导入的流程设计文件。 所需导入的流程设计文件,可以通过以下两种方式获得。 下载流程模板并填写模板 在“导入配置”页签内,单击“下载流程模板”下载模板,然后根据业务需求填写好模板中的相关参数并保存后,先添加再上传,完成模板上传。模板参数的详细描述请参见表3。 导出的流程 您可以将某个DataArts Studio实例的数据架构中已建立的流程设计信息导出到Excel文件中。导出后的文件可用于导入。导出流程的操作请参见导出流程。 下载的流程模板参数如表3所示,其中名称前带“*”的参数为必填参数,名称前未带“*”的参数为可选参数。一个流程需要填写一条记录。 表3 流程导入参数说明 参数名 说明 上级流程 第一层的流程,其上级流程为空,不用填。 非第一层的流程,其上级流程不能为空。上级流程为多级流程时,流程之间以“/”分隔。例如“集成产品开发/开发生命周期”。 *名称 流程名称。 *责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 描述 流程的描述信息。 导入结果会在“导入流程”对话框的“上次导入”中显示。如果导入结果为“成功”,单击“关闭”完成导入。如果导入失败,您可以在“备注”列查看失败原因,将模板文件修改正确后,再重新上传。
  • 新建流程 根据业务需求设计流程,流程支持三层至七层,如需要修改,请参考流程层级数。 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。 图1 选择数据架构 单击左侧导航栏中“流程设计”,进入流程设计页面,在流程树中选中一个流程,单击按钮在所选流程下新建流程。首次新建流程时,可选择在流程的根节点下新建流程。 图2 流程设计 在弹出对话框中配置如下参数,然后单击“确定”完成流程的创建。 图3 新建流程 表1 新建流程参数说明 参数名 说明 流程名称 流程名称,只能包含中文、英文字母、数字和下划线。 责任人 流程的责任人,可以手动输入名字或直接选择已有的责任人。 上级流程 选择所属的上级流程。 描述 流程的描述信息。 依次新建更多的流程或子流程。一般需要设计L1~L3三层流程。第一层标识为L1层,第二层标识为L2层,第三层标识为L3。 示例如下: 图4 流程设计示例
  • 配置Elasticsearch/云搜索服务(CSS)目的端参数 作业中目的连接为配置Elasticsearch连接或配置云搜索服务(CSS)连接时,即将数据导入到Elasticsearch/云搜索服务(CSS)时,目的端作业参数如表1所示。 表/文件迁移和整库迁移时需配置的参数不同,下表参数为表/文件迁移时的全量参数,实际参数以界面显示为准。 表1 Elasticsearch/云搜索服务(CSS)作为目的端时的作业参数 参数名 说明 取值样例 索引 待写入数据的Elasticsearch的索引,类似关系数据库中的数据库名称。CDM支持自动创建索引和类型,索引和类型名称只能全部小写,不能有大写。 index 类型 待写入数据的Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。 说明: Elasticsearch搜索引擎7.x及以上版本不支持自定义类型,只能使用_doc类型。此处即使自定义也不会生效。 type 管道ID 该参数用于数据传到Elasticsearch后,通过Elasticsearch的数据转换pipeline进行数据格式变换。 目的端为Elasticsearch时需要先在kibana中创建管道ID。 目的端为CSS时不需要创建管道ID,此参数填写配置文件名称,默认为name。 目的端为Elasticsearch时:pipeline_id 目的端为CSS时:name(name为配置文件名称) 开启路由 开启路由后,支持指定某一列的值作为路由写入Elasticsearch。 说明: 开启路由前建议先建好目的端索引,可提高查询效率。 否 路由字段 “开启路由”参数选择为“是”时配置,用于配置目的端路由字段。目的端索引存在但是获取不到字段信息时,支持手动填写字段。路由字段允许为空,为空时写入Elasticsearch不指定routing值。 value1 定时创索引 对于持续写入数据到Elasticsearch的流式作业,CDM支持在Elasticsearch中定时创建新索引并写入数据,方便用户后期删除过期的数据。支持按以下周期创建新索引: 每小时:每小时整点创建新索引,新索引的命名格式为“索引名+年+月+日+小时”,例如“index2018121709”。 每天:每天零点零分创建新索引,新索引的命名格式为“索引名+年+月+日”,例如“index20181217”。 每周:每周周一的零点零分创建新索引,新索引的命名格式为“索引名+年+周”,例如“index201842”。 每月:每月一号零点零分创建新索引,新索引的命名格式为“索引名+年+月”,例如“index201812”。 不创建:选择此项表示不创建定时索引。 从文件类抽取数据时,必须配置单个抽取(“抽取并发数”参数配置为1),否则该参数无效。 每小时 父主题: 配置作业目的端参数
共100000条