华为云用户手册

  • CIM数据汇聚管理软件 服务信息如下: 表1 服务信息 服务名 服务器 安装目录 端口 stdms-service-app 10.190.x.x 10.190.x.x 10.190.x.x /app/stdms-server 8888 stdms 10.190.x.x 10.190.x.x /app/stdms-tomcat-9.0.76 9090 xxl-job-admin 10.190.x.x 10.190.x.x /app/stdms-xxljobs 8181 安装stdms-service-app服务 config文件夹和 stdms-service-app-1.0.0-SNAPSHOT.jar 放在同级目录。 修改配置文件application.yml,配置启动端口和数据源信息 server: port: 8888 …… datasource: type: com.zaxxer.hikari.HikariDataSource driverClassName: org.postgresql.Driver url: jdbc:postgresql://192.168.32.44:5432/stdms_prd?currentSchema=public&characterEncoding=UTF-8&reWriteBatchedInserts=true username: postgres password: ****** 修改redis-prod.properties 配置服务器redis的ip 端口用户名密码 redis.auth.database=11 建议保留默认 redis.session.fqn=gis-dsb-core-stdms-test redis.session.database=4 redis.session.masterName=mymaster redis.session.password=****** #哨兵配置,多个用逗号分隔 redis.session.sentinels=192.168.32.80:26379,192.168.32.80:26380,192.168.32.80:26381 启动、停止 启动: 进入stdms-service-app-1.0.0-SNAPSHOT.jar所在路径,执行 ```shell nohup java -jar stdms-service-app-1.0.0-SNAPSHOT.jar & ``` 停止: Kill -9 进程号 服务验证 将以下地址中的ip和端口修改为实际部署ip和端口查看返回信息 请求地址:http://ip:8888/stdms/api/xml 安装xxl-job-admin服务 application-config.yml 和 xxl-job-admin-2.3.0.jar放在同级目录。 修改配置文件application-config.yml,配置启动端口和数据源信息 server: port: 8181 servlet: context-path: /xxl-job-admin spring: datasource: driver-class-name: com.mysql.cj.jdbc.Driver type: DruidDataSource url: jdbc:mysql://192.168.32.3:3306/stdms_xxl_job_prd?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&serverTimezone=Asia/Shanghai username: root password: Fengtu12#$ 启动、停止 启动: 进入xxl-job-admin-2.3.0.jar所在路径,执行 ```shell nohup java -jar xxl-job-admin-2.3.0.jar & ``` 停止: Kill -9 进程号 服务验证 将以下地址中的ip和端口修改为实际部署ip和端口 登录系统 请求地址:http://ip:8181/xxl-job-admin 用户名密码 admin/****** 父主题: CIM数据汇聚管理软件部署
  • 服务部署 配置修改 /app/appdeploy/portal/ser-portal/config/application-dev.yml 图1 配置修改1 图2 配置修改2 图3 配置修改3 图4 配置修改4 图5 配置修改5 图6 配置修改6 /app/appdeploy/portal/ser-gateway/config/application-dev.yml 图7 配置修改7 其它,application.yml,tomcat 的 server.xml 等,端口视情况修改。 页面访问 https://10.190.x.x/ 使用 cas 账户: admin/sf@xxx(管理员账号) yanshi/xxxx(超管账号) 图8 页面访问 父主题: 二三维底板服务维护软件部署
  • 配置集群 打开并登录Manager 打开客户端浏览器(推荐使用Google Chrome浏览器),输入安装好的管理节点IP或DNS地址,比如http://172.16.3.108:8180/(172.16.3.108是管理节点的IP地址)。以admin的身份登录Manager 图1 登录Manager 接受最终用户协议 图2 接受 设置集群名字,单击“下一步” 图3 单击下一步 添加集群服务器 单击机柜的名字和描述可以对它们进行编辑 图4 添加集群服务器1 配置RPM库 图5 添加集群服务器2 分配集群节点,并设置管理账号信息 图6 添加集群服务器3 图7 添加集群服务器4 配置完成 图8 配置完成 父主题: 数据底座模块部署
  • 配置空间权限集 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图4 选择数据安全 单击数据安全左侧导航树中的“空间权限集”,进入空间权限集页面。 在“空间权限集”页面,找到需要配置的空间权限集,单击权限集名称进入详情页面。 图5 进入空间权限集详情 基本信息:在空间权限集详情页面,基本信息区域可以查看空间权限集名称、ID、管理员等信息,详见图6。 图6 空间权限集基本信息 权限配置:在权限集详情页面,权限配置页签默认展示数据视角,可手动切换到权限视角。在这两种视角下,配置的权限数据是互通的,差异仅为展示视角的不同,推荐您使用权限视角进行批量授权。 数据视角:数据视角下,系统从数据的角度为您提供权限配置入口,当前仅支持MRS数据源。 图7 数据视角权限配置 配置权限时,您可以选择“整库”、“整表”或“整列”等层级,然后在数据源信息中勾选对应层级,进行批量授权。另外,也可以在展开的导航树中,单击对应数据操作列中的“授权”,进行单一授权。 数据视图授权时,系统也提供了“快速模式”和“显示无权限的数据”功能。开启快速模式的情况下,库表列的元数据会从数据目录获取,否则会从数据源获取元数据。已完成元数据采集的场景下推荐开启快速模式。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 图8 数据视角授权 权限视角:权限视角下,系统从权限的角度为您提供权限配置入口。 配置权限时,您需要直接单击“新建”,然后依次选择数据层级,进行权限配置。在权限视角下,同一层级(例如数据库、数据表或数据列)不允许选择多个对象进行批量授权。当前权限类型暂不支持选择为“禁止”。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 配置权限后,在权限视角下支持您对所配置的权限进行编辑、同步或删除等操作。 图9 权限视角权限配置 用户配置:在权限集详情页面,单击“用户配置”进入用户配置页签。 用户配置的含义即为将权限配置中定义的数据权限,与此处的用户绑定起来。您可以单击“添加”,按照用户或用户组(当前暂不支持选择“工作空间角色”)的维度将用户添加到权限集中。其中的用户和用户组来自于当前工作空间中已添加的用户和用户组。 图10 用户配置 子权限集:在权限集详情页面,单击“子权限集”进入子权限集页签。 在子权限集页签,您可以查看到当前权限集下的子权限集。 图11 查看子权限集 日志:在权限集详情页面,单击“日志”进入日志页签。 在日志页签,当权限同步失败后,您可以查看到日志详情。系统每天0点定时删除30天前的日志。 图12 查看日志 权限集配置完成后,权限管控并不会直接生效。需要您手动将权限同步到数据源中,同步成功后权限管控才能生效,详见同步权限集。 实际上,由于空间权限集主要用于确定工作空间权限范围,而非权限管控,因此一般无需同步空间权限集,实际使用中推荐通过配置角色进行权限管控。
  • 相关操作 同步空间权限集:空间权限集需要手动同步到数据源中权限管控才能生效。但由于空间权限集主要用于确定工作空间权限范围,而非权限管控,因此一般无需同步空间权限集,推荐通过配置角色进行权限管控。 如需同步空间权限集,则在空间权限集页面,单击列表中对应权限集操作栏中的“同步”,即可将权限集同步至数据源。当需要批量同步时,可以在勾选权限集后,在列表上方单击“同步”。 编辑空间权限集:在空间权限集页面,单击列表中对应权限集操作栏中的“编辑”,即可修改权限集名称、管理员、描述信息。 删除空间权限集:在空间权限集页面,单击列表中对应权限集操作栏中的“删除”,即可删除权限集。当需要批量删除时,可以在勾选权限集后,在列表上方单击“删除”。 注意,已配置权限、用户或有子权限集的空间权限集不可删除。如需删除应先清理空间权限集的相关配置。 删除操作无法撤销,请谨慎操作。
  • 前提条件 配置权限集前,已在管理中心创建数据仓库服务(DWS)、数据湖探索(DLI)、MapReduce服务(MRS Hive)和MapReduce服务(MRS Ranger)类型的数据连接,请参考新建数据连接。 配置权限集前,已参考准备工作1:授权dlg_agency委托为dlg_agency委托配置权限。 配置权限集前,已参考同步用户将IAM上的用户信息同步到数据源上。 如果希望在权限配置时能够展示数据连接中数据库、表以及字段等元数据提示信息,则需要在数据目录组件,对数据表成功进行过元数据采集,详见元数据采集任务。
  • 创建空间权限集 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图1 选择数据安全 单击数据安全左侧导航树中的“空间权限集”,进入空间权限集页面。 在“空间权限集”页面单击“新建”,创建权限集。 图2 创建空间权限集 新建空间权限集配置请参考表1,参数配置完成单击“确定”即可。 表1 新建空间权限集参数设置 参数名 参数设置 *权限集名称 标识权限集,实例下唯一。 建议名称中包含含义,避免无意义的描述,以便于快速识别所需权限集。 *管理员 选择管理员。当前权限集管理员支持最多选2个,且管理员类型必须同为用户或者用户组。 管理员为当前权限集的负责人,具有配置当前权限集内权限的能力。管理员职能范围: 权限配置:为权限集分配数据源权限。 用户配置:将当前集合内权限分配给用户、用户组或工作空间角色。 创建权限集:基于当前权限集新建权限集和角色,新建权限集的权限不会大于当前权限集。 描述 为更好地识别权限集,此处加以描述信息。 图3 创建空间权限集配置
  • 约束与限制 仅DAYU Administrator、Tenant Administrator或者数据安全管理员可以创建、修改或同步空间权限集,权限集管理员支持同步空间权限集,其他普通用户无权限操作。 当前通过空间权限集定义权限时,仅支持DLI、MRS Hive和DWS数据源。 空间权限集配置完成后,权限管控并不会直接生效,而是需要将空间权限集手动同步到数据源后,权限管控才能生效。 由于空间权限集主要用于确定工作空间权限范围,而非权限管控,因此一般无需同步空间权限集,实际使用中推荐通过配置角色进行权限管控。如果需要同步,则需注意以下限制: 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 DWS权限集授权时,只支持配置到具体的某一个存在的库/schema/表,不支持填写“*”作为通配符。对于列则支持通配符,若要对表里所有列进行授权,可将列填写为“*”。 DLI权限集同步时会将权限由IAM创建自定义策略绑定到用户/用户组中。IAM最多可创建自定义策略200条,同步前请确保配额充足。 进行权限同步时,需要为dlg_agency委托配置相关权限,请参考准备工作1:授权dlg_agency委托。 当前数据权限管控为白名单机制,是在待授权用户原有权限的基础上增加允许操作条件,不会影响用户的原有权限。如果仅需要当前数据权限管控所赋予的权限生效,则需要您手动去除待授权用户的原有权限。详见数据权限管控说明。 默认在DataArts Studio数据开发组件执行脚本、测试运行作业时,数据源(此处指MRS/DWS数据源)会使用数据连接上的账号进行认证鉴权。因此在数据开发时,权限管控依然无法生效。需要您启用权限应用,使得在数据开发执行脚本、测试运行作业时,使用当前用户身份认证鉴权,从而做到实现不同用户具有不同的数据权限,使角色/权限集中的权限管控生效。
  • 数据开发的主要功能 表1 数据开发的主要功能 支持的功能 说明 数据管理 支持管理DWS、DLI、MRS Hive等多种数据仓库。 支持可视化和DDL方式管理数据库表。 脚本开发 提供在线脚本编辑器,支持多人协作进行SQL、Shell、Python脚本在线代码开发和调测。 支持使用变量和函数。 作业开发 提供图形化设计器,支持拖拉拽方式快速构建数据处理工作流。 预设数据集成、SQL、Shell等多种任务类型,通过任务间依赖完成复杂数据分析处理。 支持导入和导出作业。 资源管理 支持统一管理在脚本开发和作业开发使用到的file、jar、archive类型的资源。 作业调度 支持单次调度、周期调度和事件驱动调度,周期调度支持分钟、小时、天、周、月多种调度周期。调度周期配置为小时,系统支持按间隔小时和离散小时配置调度周期。 运维监控 支持对作业进行运行、暂停、恢复、终止等多种操作。 支持查看作业和其内各任务节点的运行详情。 支持配置多种方式报警,作业和任务发生错误时可及时通知相关人,保证业务正常运行。
  • 数据开发中的对象 数据连接:定义访问数据实体存储(计算)空间所需信息的集合,包括连接类型、名称和登录信息等。 解决方案:解决方案为用户提供便捷的、系统的方式管理作业,更好地实现业务需求和目标。每个解决方案可以包含一个或多个业务相关的作业,一个作业可以被多个解决方案复用。 作业:作业由一个或多个节点组成,执行作业可以完成对数据的一系列操作。 脚本:脚本(Script)是一种批处理文件的延伸,是一种纯文本保存的程序,一般来说的计算机脚本程序是确定的一系列控制计算机进行运算操作动作的组合,在其中可以实现一定的逻辑分支等。 节点:定义对数据执行的操作。 资源:用户可以上传自定义的代码或文本文件作为资源,以便在节点运行时调用。 表达式:数据开发作业中的节点参数可以使用表达式语言(Expression Language,简称EL),根据运行环境动态生成参数值。数据开发EL表达式包含简单的算术和逻辑计算,引用内嵌对象,包括作业对象和一些工具类对象。 环境变量:环境变量是在操作系统中一个具有特定名字的对象,它包含了一个或者多个应用程序所使用到的信息。 补数据:手工触发周期方式调度的作业任务,生成某时间段内的实例。
  • 资产筛选 对于技术资产搜索结果,可以基于条件进行筛选,支持的筛选条件类别如下: 数据连接:数据资产所属数据连接名称。 类型:数据资产所属类型。 分类:数据资产所属分类。 标签:数据资产所包含的标签。 密级:数据资产所属密级。 如下通过资产类型过滤搜索结果,其他类同。 在类型过滤区域,选择“Table”,搜索结果显示属于Table类型的资产。 类型过滤条件按照名称排序,默认只显示前五种类型,单击“全部”,显示系统目前支持的所有资产类型。
  • 约束限制 业务资产和指标资产来自于数据架构组件,会随数据架构同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的数据连接信息来自于管理中心的数据连接,会随管理中心同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的库表列等信息来自于元数据采集任务,是否更新和自动删除取决于元数据采集任务的参数配置,详情请参见任务管理。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。
  • 资产详情 本文以查看技术资产中的数据表详情为例进行说明。 在技术资产搜索结果列表,单击任意数据表,进入数据表详情页面。 在“详情”页签,可查看技术元数据基本属性、编辑描述;可给数据表添加标签和密级;可给数据表的列和OBS对象添加或删除分类、标签和密级。 图2 查看详情 在“权限”页签,可申请数据表权限或给其他用户授权。 在未上线数据安全组件的区域,申请权限和授权流程由数据目录组件提供,详见数据表权限(待下线)。 在已上线数据安全组件的区域,申请权限和授权流程由数据安全组件提供。 在已上线数据安全组件的区域,数据表权限功能已由数据安全组件提供,不再作为数据目录组件能力。 数据安全组件当前在上海一、上海二、乌兰察布一、华南广州和北京四区域部署上线。 图3 权限页签详情 在“列属性”页签,可查看数据表的列属性,给数据列添加或删除分类、标签和密级,并编辑描述。 图4 管理列属性 在“血缘”页签,可查看数据表的血缘关系,包括血缘和影响。如何配置数据血缘请参见通过数据地图查看数据血缘关系。数据开发作业配置了支持自动血缘的节点或手动配置节点的血缘关系后,作业执行时可以自动解析,在数据目录中展示数据血缘。 在“概要”页签,查看数据表的概要信息(当前仅支持DWS、DLI、OBS类型数据表查看概要,概要采样方式以元数据采集任务配置为准)。 单击“更新”,可更新概要信息。 在“数据预览”页签,预览当前表的业务数据。根据列的分类信息,支持对预览数据根据脱敏策略的设置进行实时脱敏。 数据预览支持的数据源类型:DWS、DLI、Hive、MySQL。 列的分类信息支持在新建采集任务时自动设置和在数据分类菜单中手动添加两种方式。其中仅DWS、DLI支持新建采集任务时自动设置分类。 在“变更记录”页签,查看数据表变更详情。
  • 前提条件 已新增Python脚本,请参见新建脚本。 已新建主机连接,该Linux主机配有用于执行Python脚本的环境。新建主机连接请参见配置主机连接。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。 当前用户已锁定该脚本,否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定,详情参见编辑锁定功能。
  • 启用权限应用 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图1 选择数据安全 单击左侧导航树中的“权限应用”,进入权限应用页面。 在“权限应用”页面,为希望启用权限应用的数据连接,进行联通性测试。联通性测试时,系统会使用当前用户账号访问数据源,以确保当前用户访问正常。 由于DWS数据源不支持以华为账号直接访问,因此如果当前以华为账号登录,则会导致联通性测试失败。因此在DWS联通性测试前,需要将当前登录账号切换为IAM子用户账号。 图2 联通性测试 如果联通性测试失败,可从以下方面进行排查: 数据连接上的数据源是否可用。 数据连接中的Agent选择的CDM集群是否为2.10.0.300及以上版本。 DWS连接中DWS集群guest_agent版本为8.2.1,或在8.2.1以上、9.0.0以下。DWS集群guest_agent版本查看方法请参考查看DWS集群guest agent版本。 MRS Hive连接或MRS SPARK连接中的用户是否配置了代理权限,若没配置代理,可参考参考:为MRS数据连接用户配置代理权限。 MRS SPARK数据连接对应的SPARK2x组件是否为多主实例模式。多主实例模式时才支持权限应用,为多租户模式时不支持。多租户模式切换多主实例模式请参考配置多主实例与多租户模式切换章节。 联通性测试成功后,单击启用权限应用,然后单击下方的“确认”,即可完成权限应用开启。
  • 约束与限制 当前权限应用仅支持DWS,以及代理模式的MRS Hive和MRS SPARK类型数据源。 联通性测试时,系统会使用当前用户账号访问数据源,以确保当前用户访问正常。由于DWS数据源不支持以华为账号直接访问,因此如果当前以华为账号登录,则会导致联通性测试失败。因此DWS联通性测试前,需要将当前登录账号切换为IAM子用户账号。 仅当数据连接中的Agent选择的CDM集群为2.10.0.300及以上版本时,才支持权限应用。 仅当DWS集群guest_agent版本为8.2.1,或在8.2.1以上、9.0.0以下时,才支持权限应用。DWS集群guest_agent版本查看方法请参考查看DWS集群guest agent版本。 仅当MRS Hive和MRS SPARK数据连接中的用户配置了代理权限后,才支持权限应用。 仅当MRS SPARK数据连接对应的SPARK2x组件为多主实例模式时才支持权限应用,为多租户模式时不支持。多租户模式切换多主实例模式请参考配置多主实例与多租户模式切换章节。 角色/权限集中配置的用户权限,需要在角色/权限集同步成功并启用权限应用后才能生效。
  • 前提条件 已经为MRS Hive连接和MRS SPARK连接中的用户配置了代理权限,请参考参考:为MRS数据连接用户配置代理权限进行配置。 MRS SPARK数据连接对应的SPARK2x组件为多主实例模式,否则请参考配置多主实例与多租户模式切换章节进行切换。 开启权限应用前,请确保已经为使用数据源的用户配置了业务所需的数据权限,避免开启后因用户无数据权限导致业务中断。配置权限详见配置权限集或配置角色。 DWS联通性测试前,已将当前登录账号切换为IAM子用户账号。
  • 数据源抽取写入性能实测数据 常见数据源的性能实测结果分别如表1和表2所示。 表1 读取性能实测数据 数据源 数据源规格 版本 单并发抽取速率(行/s) 多并发抽取速率(行/s) 云数据库 MySQL 8U 32G MySQL 5.7 42052 195313(并发度:40) Oracle 8U 16G 19C 18539 18706(并发度:10) MRS Hbase master 16U64G *3 node 8U32G *3 MRS 3.1.0 6296 69156(并发度:30) MRS Hive master 16U64G *3 node 8U32G *3 MRS 3.1.0 22321 170068(并发度:30) MRS HDFS(二进制文件) master 16U64G *3 node 8U32G *3 MRS 3.1.0 138727 141468(并发度:20) 125556 126990(并发度:10) 120919 120919(并发度:10) DWS 8U 16G 8.1.1.300 13434 / DLI 16U SQL队列 71023 19290(并发度:20) MRS Hudi(MOR) master 16U64G *3 node 8U64G *3 MRS 3.2.0 75187 467289(并发度:30) MRS Hudi(COW) master 16U64G *3 node 8U64G *3 MRS 3.2.0 84033 485436(并发度:30) Clickhouse node 8U32G * 2 clickhouse 22.3.2.2 187265 / Elasticsearch 4U8G *6 elasticsearch7.10.2 28752 / RDS(Postgresql) 4U32G(主备模式) Postgresql 13.12 128865 1351351(并发度:30) 表2 写入性能实测数据 数据源 数据源规格 版本 单并发写入速率 (行/s) 多并发写入速率 (行/s) 云数据库 MySQL 8U 32G MySQL 5.7 2658 / Oracle 8U 16G 19C / / MRS Hbase master 16U64G *3 node 8U32G *3 MRS 3.1.0 3959 4120(并发度:10) MRS Hive master 16U64G *3 node 8U32G *3 MRS 3.1.0 25813 26882(并发度:10) MRS HDFS(二进制文件) master 16U64G *3 node 8U32G *3 MRS 3.1.0 65075 90155(并发度:10) 86248 86248(并发度:1) 76687 76687(并发度:1) DWS 8U 16G 8.1.1.300 26624 27902(并发度:10) DLI 16U SQL队列 15211 18430(并发度:10) MRS Hudi(MOR) master 16U64G *3 node 8U64G *3 MRS 3.2.0 16345 183150(并发度:10) MRS Hudi(COW) master 16U64G *3 node 8U64G *3 MRS 3.2.0 21088 88183(并发度:20) Clickhouse node 8U32G * 2 clickhouse 22.3.2.2 93984 / Elasticsearch 4U8G *6 elasticsearch 7.10.2 22271 / RDS(Postgresql) 4U32G(主备模式) Postgresql 13.12 34746 153374(并发度:10)
  • 作业实例运行状态 表4 作业实例运行状态说明 运行状态 场景描述 等待运行 如果作业实例依赖的前置作业实例未最终完成(未最终完成的状态包括:未生成实例、等待运行、运行失败),该实例处于等待运行。 运行中 作业正常运行中。说明前置的依赖作业都已完成,该作业调度时间已到。 运行成功 作业真正成功执行了业务逻辑,并且最终成功(包含失败重试的成功)。 强制成功 作业实例处于失败或取消状态时,进行手动执行强制成功。 忽略失败成功 如下图所示,节点B设置了失败处理策略,当B执行失败了,会跳过B继续执行C,当存在这种节点运行失败,整个作业执行完成了就是忽略失败成功。 图5 失败处理策略-继续执行下一节点 运行异常 这种运行状态场景较少。如下图所示,节点B设置了失败处理策略,当B执行失败了,作业实例立即挂起,不会继续执行C,作业实例进入异常运行状态。 图6 失败处理策略-挂起当前作业执行计划 已暂停 这种运行状态场景较少。当某个作业的实例正在运行,测试人员在作业监控界面,手工暂停作业调度。此时,该作业正在运行的实例会进入已暂停状态。 已取消 等待运行状态的作业实例,进行手工停止,则实例处于已取消状态。 如果作业实例依赖的直接上游作业被停止调度了,该作业实例会自动进入已取消状态。作业A依赖作业B,作业B被停止调度,作业A实例生成后会自动取消。 冻结 对于未来时间内尚未生成的作业实例,进行冻结后,该作业实例会进入冻结状态。 失败 作业执行失败。
  • 自动血缘解析 自动血缘解析无需进行手动配置,当数据开发作业中包含如表1所示节点及场景时,系统支持自动解析血缘关系。 解析SQL节点的血缘时,支持多SQL解析及列级血缘解析,单条SQL语句不支持SQL中含有分号的场景。 表1 支持自动血缘解析的作业节点及场景 作业节点 支持场景 DLI SQL 支持解析DLI中表与表之间数据插入产生的血缘。 支持通过建表语句产生的OBS文件到DLI表之间的血缘。 DWS SQL 支持Insert into等DML操作产生的DWS表之间的血缘。 MRS Hive SQL 支持Insert into/overwrite等DML操作产生的MRS表之间的血缘。 MRS Spark SQL 支持Insert into/overwrite等DML操作产生的MRS表之间的血缘。 CDM Job 支持MRS Hive、DLI、DWS、RDS、OBS以及CSS之间表文件迁移所产生的血缘。 ETL Job 支持DLI、OBS、MySQL以及DWS之间的ETL任务产生的血缘。
  • 前提条件 已新增Shell脚本,请参见新建脚本。 已新建主机连接,该Linux主机用于执行Shell脚本,请参见配置主机连接。 连接主机的用户需要具有主机/tmp目录下文件的创建与执行权限。 Shell或Python脚本可以在该ECS主机上运行的最大并发数由ECS主机的/etc/ssh/sshd_config文件中MaxSessions的配置值确定。请根据Shell或Python脚本的调度频率合理配置MaxSessions的值。 当前用户已锁定该脚本,否则需要通过“抢锁”锁定脚本后才能继续开发脚本。新建或导入脚本后默认被当前用户锁定,详情参见编辑锁定功能。
  • 约束限制 业务资产和指标资产来自于数据架构组件,会随数据架构同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的数据连接信息来自于管理中心的数据连接,会随管理中心同步的数据更新,但不支持随之删除。如需删除需要在数据目录中定位到资产后手动删除。 技术资产中的库表列等信息来自于元数据采集任务,是否更新和自动删除取决于元数据采集任务的参数配置,详情请参见任务管理。 技术资产中的数据血缘关系更新依赖于作业调度,数据血缘关系是基于最新的作业调度实例产生的。需要注意的是,数据血缘关系删除需要通过删除作业或删除作业元数据的方式进行,仅将作业停止调度不会触发血缘关系的删除。
  • 告警类型 基线预警 基线监控的链路上,首个没有在预警时间(任务节点粒度)完成的任务节点。 基线破线 基线破线报警需满足以下两个条件: 任务节点的上游(包含直接和间接上游)没有出现过破线 该任务没有在承诺时间节点完成 破线加剧 执行变慢导致破线加剧报警触发需满足以下两个条件: 任务所在链路已发送首次“基线破线”报警 任务运行耗时相较于预测运行耗时有所增加,具体来说: 保障任务预警时间未完成 基线预警时间到达(承诺时间-预警余量),检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。 保障任务承诺时间未完成 基线承诺时间到达,检查基线所有保障任务是否完成运行,若有保障任务未运行完成,则触发报警。相同保障任务只报一次。 任务失败事件 基线监控链路上,任意任务失败或因为错误配置停止调度,则触发失败事件。
  • 相关操作 同步权限:在角色管理中,配置数据权限后需要同步权限到数据源中权限管控才能生效。 您可以在角色详情页面,单击基本信息区域右上角的“权限同步”进行同步。当需要批量同步时,可以在角色管理导航树上勾选角色后,在导航树上方单击进行权限同步。 同步角色:在通用角色管理(纳管角色无需同步角色)中,权限集关联角色后需要同步到数据源中权限管控才能生效。 您可以在角色详情页面,单击基本信息区域右上角的“角色信息同步”,或数据源角色关联页签中列表操作栏的“同步”,进行角色信息同步。当需要批量同步时,可以在角色管理导航树上勾选角色后,在导航树上方单击进行角色信息同步。 角色信息同步成功后,MRS数据源角色命名格式为“角色名_时间戳”,DWS据源角色命名格式为“dataarts_studio_role_角色名”。 同步角色到MRS集群的场景下,系统提示角色信息同步成功后,还需要等待约5分钟,直到Ranger组件自动触发并完成同步MRS集群角色后,权限管控才能生效。Ranger组件是否同步完成,可通过数据源角色关联页签中列表中的“数据源角色名称”确认: 未完成同步的角色,数据源角色名称为:角色名_10位时间戳 已完成同步的角色,数据源角色名称为:角色名_13位时间戳 删除角色:在角色管理导航树上勾选角色后,在导航树上方单击进行角色删除。 注意,通用角色中已配置角色、权限、用户或有子权限集时不可删除,如需删除应先清理相关配置。纳管角色中已配置权限时不可删除,如需删除应先清理相关配置,另外纳管角色删除后即会解除角色关联。 删除操作无法撤销,请谨慎操作。
  • 配置通用角色 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图1 选择数据安全 单击数据安全左侧导航树中的“角色管理”,进入角色管理页面。 您可以通过以下两种方式之一,进入配置通用角色入口。 已有角色:在“角色管理”页面,角色管理导航树上会默认展示已创建的权限集(详见创建权限集)作为通用角色。您可以单击角色名,进入角色详情配置页面。 图2 进入角色详情 新建角色:在“角色管理”页面,在角色管理导航树单击,选择“创建通用角色”。参考表1完成通用角色创建,配置完成单击“确定”,系统默认进入新建的角色详情配置页面。 表1 参数设置 参数名 参数设置 *权限集名称 标识权限集,实例下唯一。 建议名称中包含含义,避免无意义的描述,以便于快速识别所需权限集。 *父权限集 选择对应的父权限集,父权限集可以是空间权限集或其他权限集。注意选择父权限集后,当前权限集的权限也为其父权限集的子集。 *管理员 管理员为当前权限集的负责人,具有配置当前权限集内权限的能力。管理员职能范围: 权限配置:为权限集分配数据源权限。 用户配置:将当前集合内权限分配给用户、用户组或工作空间角色。 创建权限集:基于当前权限集新建权限集和角色,新建权限集的权限不会大于当前权限集。 描述 为更好地识别权限集,此处加以描述信息。 图3 创建通用角色 基本信息:在角色详情页面,基本信息区域可以查看角色名称、ID、管理员等信息,详见图4。 另外,还可以在配置完角色和权限后,通过右上角的“权限同步”和“角色信息同步”进行同步。 图4 角色基本信息 数据源角色关联:在角色详情页面的数据源角色关联页签,可通过“新建关联”在数据源上创建新角色,用于承载用户和权限之间的关联关系。 图5 数据源角色关联页签 单击“新建关联”,系统在弹出的窗口中展示数据源的信息,您需要勾选所需关联的数据源并填写“关联角色名”,然后单击“确定”,即可完成角色关联。 图6 新建关联 如果后续不再需要关联数据源角色,可以通过列表操作栏中的“解除关联”删除数据源中的角色,并解除角色关联。解除后权限同步就不再同步到角色,而是只同步到用户信息。 数据权限:在角色详情页面,单击“数据权限”进入数据权限页签。数据权限页签默认展示数据视角,可手动切换到权限视角。在这两种视角下,配置的权限数据是互通的,差异仅为展示视角的不同,推荐您使用权限视角进行批量授权。 数据视角:数据视角下,系统从数据的角度为您提供权限配置入口,当前仅支持MRS数据源。 图7 数据视角权限配置 配置权限时,您可以选择“整库”、“整表”或“整列”等层级,然后在数据源信息中勾选对应层级,进行批量授权。另外,也可以在展开的导航树中,单击对应数据操作列中的“授权”,进行单一授权。 数据视图授权时,系统也提供了“快速模式”和“显示无权限的数据”功能。开启快速模式的情况下,库表列的元数据会从数据目录获取,否则会从数据源获取元数据。已完成元数据采集的场景下推荐开启快速模式。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 图8 数据视角授权 权限视角:权限视角下,系统从权限的角度为您提供权限配置入口。 配置权限时,您需要直接单击“新建”,然后依次选择数据层级,进行权限配置。在权限视角下,同一层级(例如数据库、数据表或数据列)不允许选择多个对象进行批量授权。当前权限类型暂不支持选择为“禁止”。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 配置权限后,在权限视角下支持您对所配置的权限进行编辑、同步或删除等操作。 图9 权限视角权限配置 成员列表:在角色详情页面,单击“成员列表”进入成员列表页签。 成员列表的含义即为将数据源角色关联中的角色与此处的用户关联起来。您可以单击“添加”,按照用户、用户组或工作空间角色的维度将用户添加到角色中。其中的用户和用户组来自于当前工作空间中已添加的用户和用户组。 图10 成员列表 从属角色:在角色详情页面,单击“从属角色”进入从属角色页签。 在从属角色页签,您可以查看到当前角色的子角色。 图11 查看从属角色 目录权限:在角色详情页面,单击“目录权限”进入目录权限页签。 目录权限通过从Ranger组件获取对应角色的HDFS策略,从而显示该角色具有权限的HDFS路径,并支持查看对该路径有哪些操作权限。如果想查询某路径下的权限,则可以使用搜索功能进行查看,注意当前仅支持精确匹配。 图12 查看目录权限 日志:在角色详情页面,单击“日志”进入日志页签。 在日志页签,当权限同步失败后,您可以查看到日志详情。系统每天0点定时删除30天前的日志。 图13 查看日志 角色配置完成后,并不会直接生效。需要您将权限和角色手动同步到数据源中,同步成功后权限控制才能生效,详见相关操作。
  • 配置纳管角色 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图14 选择数据安全 单击数据安全左侧导航树中的“角色管理”,进入角色管理页面。 在“角色管理”页面,在角色管理导航树单击,选择“创建纳管角色”。在弹窗中选择已创建的Ranger连接,您需要在选择“父权限集/角色”后,单击所需纳管MRS角色操作栏中的“纳管”,完成纳管角色的创建。也可以在勾选多个所需纳管MRS角色后,单击列表上方“纳管”进行批量创建。 如果后续不再需要纳管角色,可以直接在角色管理导航树删除纳管角色,即可解除纳管角色。解除后权限同步就不再同步到角色,而是只同步到用户信息。 图15 创建纳管角色 关闭角色纳管弹窗,返回“角色管理”页面。在角色管理导航树上找到上一步中纳管的MRS角色,单击角色名,进入角色详情配置页面。 基本信息:在角色详情页面,基本信息区域可以查看角色名称、ID、管理员等信息,详见图16。 另外,还可以在配置完角色和权限后,通过右上角的“权限同步”和“角色信息同步”进行同步。 图16 角色基本信息 成员列表:在角色详情页面的成员列表页签,可以查看当前MRS角色所关联的用户或用户组。纳管角色暂不支持在数据安全侧添加用户。 图17 成员列表 数据权限:在角色详情页面,单击“数据权限”进入数据权限页签。数据权限页签默认展示数据视角,可手动切换到权限视角。在这两种视角下,配置的权限数据是互通的,差异仅为展示视角的不同,推荐您使用权限视角进行批量授权。 数据视角:数据视角下,系统从数据的角度为您提供权限配置入口。如果已成功运行过元数据采集任务(详见元数据采集任务),则可以直接查看到数据源信息,单击可展开导航树。 图18 数据视角权限配置 配置权限时,您可以选择“整库”、“整表”或“整列”等层级,然后在数据源信息中勾选对应层级,进行批量授权。另外,也可以在展开的导航树中,单击对应数据操作列中的“授权”,进行单一授权。 数据视图授权时,系统也提供了“快速模式”和“显示无权限的数据”功能。开启快速模式的情况下,库表列的元数据会从数据目录获取,否则会从数据源获取元数据。已完成元数据采集的场景下推荐开启快速模式。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 图19 数据视角授权 权限视角:权限视角下,系统从权限的角度为您提供权限配置入口。 配置权限时,您需要直接单击“新建”,然后依次选择数据层级,进行权限配置。在权限视角下,同一层级(例如数据库、数据表或数据列)不允许选择多个对象进行批量授权。当前权限类型暂不支持选择为“禁止”。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 配置权限后,在权限视角下支持您对所配置的权限进行编辑、同步或删除等操作。 图20 权限视角权限配置 目录权限:在角色详情页面,单击“目录权限”进入目录权限页签。 目录权限通过从Ranger组件获取对应角色的HDFS策略,从而显示该角色具有权限的HDFS路径,并支持查看对该路径有哪些操作权限。如果想查询某路径下的权限,则可以使用搜索功能进行查看,注意当前仅支持精确匹配。 图21 查看目录权限 纳管角色的权限配置完成后,并不会直接生效。需要您将权限手动同步到Ranger组件中,同步成功后权限控制才能生效,详见同步权限。
  • 前提条件 配置角色前,已完成空间权限集的配置,请参考配置空间权限集。 MRS和DWS角色同步时,系统通过管理中心组件数据连接中的用户进行账号相关的增删改查等操作,因此对数据连接中的用户有以下权限要求: MRS Ranger连接中的用户需具备Ranger组件Admin权限。 DWS连接中的数据库用户,在非三权分立模式下至少需具备数据库dbadmin权限,三权分立模式下需具备系统管理员权限。 配置方法详见准备工作2:使用前检查checklist。 如果希望在快速模式下权限配置时能够展示数据连接中数据库、表以及字段等元数据提示信息,则需要在数据目录组件,对数据表成功进行过元数据采集,详见元数据采集任务。
  • 约束与限制 当前仅支持为MRS和DWS集群关联角色。 由于空间权限集主要用于确定工作空间权限范围,而非权限管控,因此不支持对空间权限集添加关联角色。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 当为权限集关联了角色之后,权限就不再同步到用户,而是只同步到角色。 仅当数据连接中的Agent选择的CDM集群为2.10.0.300及以上版本时,才支持角色管理。 MRS和DWS角色同步时,系统通过管理中心组件数据连接中的用户进行账号相关的增删改查等操作,因此对数据连接中的用户有以下权限要求: MRS Ranger连接中的用户需具备Ranger组件Admin权限。 DWS连接中的数据库用户,在非三权分立模式下至少需具备数据库dbadmin权限,三权分立模式下需具备系统管理员权限。 配置方法详见准备工作2:使用前检查checklist。 角色中的目录权限仅展示该空间下所指定角色在集群上的目录权限。 进行权限同步时,需要为dlg_agency委托配置相关权限,请参考准备工作1:授权dlg_agency委托。 当前数据权限管控为白名单机制,是在待授权用户原有权限的基础上增加允许操作条件,不会影响用户的原有权限。如果仅需要当前数据权限管控所赋予的权限生效,则需要您手动去除待授权用户的原有权限。详见数据权限管控说明。 默认在DataArts Studio数据开发组件执行脚本、测试运行作业时,数据源(此处指MRS/DWS数据源)会使用数据连接上的账号进行认证鉴权。因此在数据开发时,权限管控依然无法生效。需要您启用权限应用,使得在数据开发执行脚本、测试运行作业时,使用当前用户身份认证鉴权,从而做到实现不同用户具有不同的数据权限,使角色/权限集中的权限管控生效。
  • 相关操作 同步权限集:权限集需要同步到数据源中权限管控才能生效。但由于角色管理基于权限集提供了更加直观、强大的权限管控能力,因此一般无需同步权限集,实际使用中推荐通过配置角色进行权限管控。 如需同步权限集,则在权限集页面,单击列表中对应权限集操作栏中的“同步”,即可将权限集同步至数据源。当需要批量同步时,可以在勾选权限集后,在列表上方单击“同步”。 编辑权限集:在权限集页面,单击列表中对应权限集操作栏中的“编辑”,即可修改权限集名称、管理员、描述信息。 删除权限集:在权限集页面,单击列表中对应权限集操作栏中的“删除”,即可删除权限集。当需要批量删除时,可以在勾选权限集后,在列表上方单击“删除”。 注意,已配置权限、用户或有子权限集的权限集不可删除。如需删除应先清理权限集的相关配置。 删除操作无法撤销,请谨慎操作。
  • 配置权限集 在DataArts Studio控制台首页,选择实例,单击“进入控制台”,选择对应工作空间的“数据安全”模块,进入数据安全页面。 图4 选择数据安全 单击数据安全左侧导航树中的“权限集”,进入权限集页面。 在“权限集”页面,找到需要配置的权限集,单击权限集名称进入详情页面。 图5 进入权限集详情 基本信息:在权限集详情页面,基本信息区域可以查看权限集名称、ID、管理员等信息,详见图6。 图6 权限集基本信息 权限配置:在权限集详情页面,权限配置页签默认展示数据视角,可手动切换到权限视角。在这两种视角下,配置的权限数据是互通的,差异仅为展示视角的不同,推荐您使用权限视角进行批量授权。 数据视角:数据视角下,系统从数据的角度为您提供权限配置入口(当前仅支持MRS数据源)。在授权时可选的数据范围为父权限集中已授权的数据。 图7 数据视角权限配置 配置权限时,您可以选择“整库”、“整表”或“整列”等层级,然后在数据源信息中勾选对应层级,进行批量授权。另外,也可以在展开的导航树中,单击对应数据操作列中的“授权”,进行单一授权。 数据视图授权时,系统也提供了“快速模式”和“显示无权限的数据”功能。开启快速模式的情况下,库表列的元数据会从数据目录获取,否则会从数据源获取元数据。已完成元数据采集的场景下推荐开启快速模式。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 图8 数据视角授权 权限视角:权限视角下,系统从权限的角度为您提供权限配置入口。在授权时可选的数据范围为父权限集中已授权的数据。 配置权限时,您需要直接单击“新建”,然后依次选择数据层级,进行权限配置。在权限视角下,同一层级(例如数据库、数据表或数据列)不允许选择多个对象进行批量授权。当前权限类型暂不支持选择为“禁止”。 值得注意的是,库、表、列的权限是分层管理的,例如仅授予库权限后,则被授权用户对表和列依然是无权限的,如需对表或列授权,要再次按照对应层级进行授权。 例如,选择数据库授权,当手动填写数据表表名、或者填写“*”作为通配符(当前仅DWS数据源的库/schema/表不支持填写“*”作为通配符)时,此授权实际为对表进行授权;当手动填写数据列名、或者填写“*”作为通配符时,此授权实际为对列进行授权。 进行授权时,授权对象名(库表列名)当前仅支持包含数字、英文、下划线、中划线和通配符*,暂不支持中文以及其他特殊字符。 配置权限后,在权限视角下支持您对所配置的权限进行编辑、同步或删除等操作。 图9 权限视角权限配置 用户配置:在权限集详情页面,单击“用户配置”进入用户配置页签。 用户配置的含义即为将权限配置中定义的数据权限,与此处的用户绑定起来。您可以单击“添加”,按照用户或用户组(当前暂不支持选择“工作空间角色”)的维度将用户添加到权限集中。其中的用户和用户组来自于当前工作空间中已添加的用户和用户组。 图10 用户配置 子权限集:在权限集详情页面,单击“子权限集”进入子权限集页签。 在子权限集页签,您可以查看到当前权限集下的子权限集。 图11 查看子权限集 日志:在权限集详情页面,单击“日志”进入日志页签。 在日志页签,当权限同步失败后,您可以查看到日志详情。系统每天0点定时删除30天前的日志。 图12 查看日志 权限集配置完成后,并不会直接生效。需要您将权限集手动同步到数据源中,同步成功后权限管控才能生效,详见同步权限集。 但由于角色管理基于权限集提供了更加直观、强大的权限管控能力,因此一般无需同步空间权限集,实际使用中推荐通过配置角色进行权限管控。
共100000条