华为云用户手册

  • 请求示例 示例背景 假设,您已在cn-north-4区域的TestApp应用中,构建一个名称为“TestMV”的M-V模型数据实体,并完成了实体发布、应用发布和应用部署。希望对主对象ID为“492060584863342592”的A.1版本和A.2版本进行比较。 示例代码 { "params":{ "id":492060584863342592, "basicVersion":"A.1", "correlationVersion":"A.2" } }
  • 响应示例 为篇幅起见,这里只展示部分内容。 { "result": "SUCCESS", "data": [ { ...... //返回基础版本对象版本号A.1的所有内容 }, { ...... //返回待比较版本对象版本号A.2的基本属性的区别 "relations": [ ...... //返回待比较版本对象版本号A.2的关联关系的区别(所有区别都是A.2与A.1对比后A.2的区别)。如需对比A.1的区别,传参时调换A.1和A.2的顺序,将A.2作为基础版本对象版本号,A.1作为待比较的版本对象的版本号即可。 ], "extAttrs": { ...... //返回待比较版本对象版本号A.2的扩展属性的区别 }, "latest": true, "lastUpdateTime": "2023-04-27 14:35:56" } ], "errors": [] }
  • URI URI格式: POST http://{Endpoint}/rdm_{appID}_app/services/dynamic/api/{entityName}/find/{pageSize}/{curPage} 参数说明: 表1 URI参数说明 参数 是否必填 参数类型 描述 Endpoint 是 String 承载REST服务端点的服务器域名或IP地址。 appID 是 String 应用ID。 entityName 是 String 实体的英文名称。 pageSize 否 String 分页查询时,每页最多展示的记录数。 curPage 否 String 分页查询的页数。
  • 请求示例 示例背景 已在设计态构建一个名称为“employee”的数据实体,该实体自定义了“age”和“sex”两个属性,并完成了实体发布、应用发布和应用部署。 已在运行态通过控制台或API的方式创建多个数据实例。 需要查询“sex”为“男性”的数据实例,且结果需要先按名称倒序排序,再按年龄倒序排序。 示例代码 { "params": { "sorts": [ { "sort": "DESC", "orderBy": "name" }, { "sort": "DESC", "orderBy": "age" } ], "filter": { "joiner": "and", "conditions": [ { "conditionName": "sex", "operator": "=", "conditionValues": [ "男" ] } ] }, "isNeedTotal": true } }
  • 响应示例 { "result": "SUCCESS", "data": [ { "id": "455304645330341888", "creator": "test1 3c03e719256a427eb9277b64fcXXXXXX", "createTime": "2023-01-13T01:38:07.000+00:00", "modifier": "test1 3c03e719256a427eb9277b64fcXXXXXX", "lastUpdateTime": "2023-01-13T01:38:07.000+00:00", "rdmVersion": 1, "rdmExtensionType": "People", "rdmDeleteFlag": 0, "tenant": { "id": "-1", "clazz": "Tenant" }, "className": "People", "name": "李四", "description": null, "kiaguid": null, "securityLevel": "internal", "sex": "男", "age": 20 }, { "id": "455304534248394752", "creator": "test1 3c03e719256a427eb9277b64fcXXXXXX", "createTime": "2023-01-13T01:37:40.000+00:00", "modifier": "test1 3c03e719256a427eb9277b64fcXXXXXX", "lastUpdateTime": "2023-01-13T01:37:40.000+00:00", "rdmVersion": 1, "rdmExtensionType": "People", "rdmDeleteFlag": 0, "tenant": { "id": "-1", "clazz": "Tenant" }, "className": "People", "name": "张三", "description": null, "kiaguid": null, "securityLevel": "internal", "sex": "男", "age": 18 } ], "errors": [], "pageInfo": { "curPage": 1, "pageSize": 20, "totalRows": 2, "totalPages": 1 } }
  • 请求参数 根据实体类型、功能的不同,请求body参数不同,您可以在全量数据服务查看API具体参数。为篇幅起见,这里只展示部分内容。 表2 请求body参数 参数 是否必填 参数类型 描述 sorts 否 List 排序。 sort 否 String 排序方式(asc/desc)。 orderBy 否 String 排序字段,可填写模型自身属性、参考对象的属性、扩展属性及分类属性。 filter 否 Object 查询条件。 isNeedTotal 否 Boolean 是否需要查询总记录数(false/true)。
  • 步骤2:实例入图 数据实例入图是为了将实体模型对应的实例数据入到图数据库,构建全量数据价值网络生成全领域视图,适配各类数据消费场景,如后续进行数据索引、追溯等。 本场景是通过实例可视化管理功能,为对应数据实体和关系实体(仅实体关系)的图数据库新增实例数据。此方式是手动将实例一条一条录入图数据库,一般仅适用于少量实例入图。如果想大量实例数据入图,推荐使用关系型数据库、CSV文件或API等数据来源,通过创建数据入图任务方式来实现,具体操作步骤请参考数据入图任务。 系统会为已发布的实体自动生成一个“已发布”的默认图数据库映射。如无特殊要求,可不再配置发布图数据库映射。
  • 购买工业软件云服务 企业在购买工业软件云服务(如板级EDA工具链云服务、产品数字化协同平台云服务、工业仿真工具链云服务、数字化制造基础服务等)并进行组织创建和绑定后,将自动开通工业软件SaaS服务中心。服务开通后,企业用户可以通过工业软件SaaS服务中心统一订阅、登录和使用云服务。 您可以通过访问华为云帮助中心,搜索对应云服务的帮助文档,了解各个工业软件云服务的购买、组织创建和绑定的操作。 图1 华为云帮助中心 父主题: 开通工业软件SaaS服务中心
  • 操作步骤 进入购买工业数字模型驱动引擎页面。 如果您初次使用iDME,将弹出“授权说明”的窗口,请仔细阅读授权说明,单击“确认”。 选择“数字主线引擎”,根据页面提示,配置如下信息。 如果各服务能力可配置的MCU数量不能满足购买需求时,即超过可配置的数量上限,您可申请扩大配额,详细操作请参见配额管理。 表1 数字主线引擎配置说明 类型 配置项 配置说明 基础配置 区域 选择数字主线引擎所属的地域。 建议选择最靠近您的地域,可减少网络时延,提高访问速度。 计费模式 包年/包月:数字主线引擎的预付费模式。 按需计费:数字主线引擎的后付费模式。 这里我们选择“按需计费”模式。 运行服务名称 填写需要购买的数字主线引擎的名称。这里我们输入“LinkX-F测试”。 企业项目 仅对开通企业项目的企业客户账号显示。如需使用该功能,请联系客服申请开通。 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理,默认项目为default。了解更多企业项目相关信息,请参见企业项目管理。 MCU分配 - 为数字主线引擎的各服务能力分配MCU。这里我们根据系统推荐场景选择“场景化数字主线”,保持默认配额设置,各服务能力MCU分配如下: 模型管理2MCU 服务管理3MCU 数据管理1MCU 阅读并勾选同意协议。 协议详细内容请参见《工业数字模型驱动引擎(iDME)服务声明》和《iDME数据授权声明》。 单击“立即购买”,进入订单信息确认页面。 确认订单信息后单击“提交”。 待系统提示购买成功后,即可进入iDME控制台查收您的运行服务。
  • 调用求解器服务 1. 用户需要进入华为云统一身份认证,点击创建委托 图1 进入统一认证身份服务 图2 创建委托 2. 在委托名称框内填入“oroas_admin_trust”,委托类型选择普通账号,委托账号框填入”op_svc_oroas_container0”,点击下一步; 搜索obs选中“OBS OperateAccess”策略,点击下一步;默认选择所有资源,点击确定。 图3 填写委托 图4 选择策略 图5 设置最小权限 3. 进入华为云OBS服务,用户首次使用需要创建桶 图6 进入OBS服务 图7 创建桶 4. 创建完成后,在列表内点击用户创建的桶名称,进入对象列表,用户需要新建文件夹(求解器以oroas-optvsolver为例)来存放输入输出数据 图8 创建文件存放路径 5. 点击进入新建文件夹(以oroas-optvsolver为例),继续新建输入输出文件夹 图9 创建输入输出路径 6. 进入输入文件夹(以input为例),用户可以上传模型对象、 图10 上传模型文件 7. 创建求解器任务,单击左侧导航栏“OptVerse-solver-AddTask”,选中“Headers”配置项,复制获取到的ProjectId值到URL处,AppCode值到“X-Apig-AppCode”。 8. 单击“Body”,在input对象内的bucket参数填入用户将新建的桶名称,object填入用户上传的模型文件路径;在output对象内的object填入输出文件路径。 9. 单击右上角“Send”发送请求,返回异步计算的任务标识task_id。 10. 若请求失败,则返回错误码及对应的错误信息说明,详细错误码信息请参见《天筹求解器OptVerse常见问题》中的“调用OptVerse的API失败时怎么处理?”。 11. 查询求解器任务,单击左侧导航栏“OptVerse-solver-QueryTask”,选中“Headers”配置项,复制AppCode值到“X-Apig-AppCode”,复制步骤9获取的task_id到API路径的末尾。 12. 单击右上角“Send”按钮发送请求,返回任务结果: 父主题: 调用服务
  • 终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同,您可以从地区和终端节点中查询所有服务的终端节点。 运筹优化算法服务的终端节点如表1所示,请您根据业务需要选择对应区域的终端节点。 表1 运筹优化算法服务的终端节点 区域名称 区域 终端节点(Endpoint) 部署服务 华北-北京四 cn-north-4 optverse.cn-north-4.myhuaweicloud.com 二维切割,求解器 父主题: 使用前必读
  • 响应参数 表2 响应参数说明 参数 参数类型 说明 error_detail String 如果运行出错会提示 result Object 如果运行正常会在该属性内给出结果 status String 任务运行状态,详情请参见表3 task_id String 任务id result_list Array of objects 切割方案列表 plan_info Array of objects 切割方案的统计信息列表 cut_file String 以字符串形式保存的切割方案文件 plan_name String 此方案序号(根据参数设置可给出多组方案) material_info String 统计信息,详情请参见表4 material_name String 材料名称 problem_id Int 按材料划分的问题序列号 表3 任务状态说明 状态 说明 waiting 在任务队列中,等待执行, 当等待时间超过一定时间,会超时,转为abnormal状态 running 任务正在执行 finished 任务成功运行结束,通过`result`获取结果 failed 任务执行出错,通过`error_detail`获取错误信息 abnormal 任务异常,可能是排队超时,可能是重试次数超时,可能是计算时间超时,通过`error_detail`获取错误信息 表4 统计信息响应参数说明 参数 单位 参数类型 说明 cut_length 米(m) float 切割长度 cut_sum - Int 切割刀数 cut_time 分钟(min) float 锯切时间 item_num - Int 开料件数 material - String 材料 program_num - Int 锯切图数量 run_program_num - Int 运行的锯切图数 rate 百分比(%) float 原材料利用率 sum_area 平方米(m2) float 原材料使用面积 sum_cost - Float 锯切成本 sum_plate_num - Int 原材料使用数量 sum_used_area 平方米(m2) float 原材料利用面积
  • AppCode认证 AppCode认证就是在调用API的时候将AppCode加到请求消息头,从而通过身份认证,获得操作API的权限。 在应用授权后获取AppCode,再调用其他接口时,您需要在请求消息头中添加“X-APIG-AppCode”。例如AppCode值为“ABCDEFJ....”,则调用接口时将“X-APIG-AppCode: ABCDEFJ....”加到请求消息头即可,如下所示。 GET https://optverse.cn-north-4.myhuaweicloud.com/v3/auth/projects Content-Type: application/json X-APIG-AppCode: ABCDEFJ....
  • 响应示例 成功响应示例 { "total": 1, "count": 1, "tasks": [ { "task_id": "40axxxxx-701a-47cf-8b56-648xxxxxxx25", "status": "running", "result": {}, "error_detail": null } ] }
  • 支持审计的关键操作列表 表1 云审计服务支持的OptVerse操作列表 操作名称 资源类型 事件名称 创建任务 task createTask 删除任务 task deleteTask 停止任务 task stopTask 用户访问授权 user addUserAccesses 创建应用 app createApp 删除应用 app deleteApp 为应用授权服务 auth authApps 更新应用的授权服务 auth updateAppAuth 更新服务配额 quota updateServiceQuota 创建订单 order createOrder
  • 调用二维切割服务 单击左侧导航栏“OptVerse-2dcut-AddTask”,选中“Headers”配置项,复制获取到的ProjectId值到URL处,AppCode值到“X-Apig-AppCode”。 单击“Body”,查看已有的简单的输入数据,也可以根据API说明,填入自己的数据。 单击右上角“Send”按钮发送请求,返回异步计算的任务标识task_id,如图 获取task_id所示。 若输入数据错误则会提示错误原因,如图所示。 单击左侧导航栏“OptVerse-2dcut-QueryTask”,选中“Headers”配置项,复制AppCode值到“X-Apig-AppCode”。 复制步骤3获取的task_id到API路径的末尾,如上图所示。 单击右上角“Send”按钮发送请求,若计算已完成,则返回任务结果: 否则返回任务状态: 父主题: 调用服务
  • 操作步骤 登录云审计服务控制台。 单击左侧导航树的“事件列表”,进入事件列表信息页面。 事件列表支持通过筛选来查询对应的操作事件。当前事件列表支持四个维度的组合查询,详细信息如下: 事件来源、资源类型和筛选类型。 在下拉框中选择查询条件。 其中筛选类型选择事件名称时,还需选择某个具体的事件名称。 选择资源ID时,还需选择或者手动输入某个具体的资源ID。 选择资源名称时,还需选择或手动输入某个具体的资源名称。 操作用户:在下拉框中选择某一具体的操作用户,此操作用户指用户级别,而非租户级别。 事件级别:可选项为“所有事件级别”、“normal”、“warning”、“incident”,只可选择其中一项。 时间范围:可选择查询最近七天内任意时间段的操作事件。
  • Spark和HDFS的关系 通常,Spark中计算的数据可以来自多个数据源,如Local File、HDFS等。最常用的是HDFS,用户可以一次读取大规模的数据进行并行计算。在计算完成后,也可以将数据存储到HDFS。 分解来看,Spark分成控制端(Driver)和执行端(Executor)。控制端负责任务调度,执行端负责任务执行。 读取文件的过程如图1所示。 图1 读取文件过程 读取文件步骤的详细描述如下所示: Driver与HDFS交互获取File A的文件信息。 HDFS返回该文件具体的Block信息。 Driver根据具体的Block数据量,决定一个并行度,创建多个Task去读取这些文件Block。 在Executor端执行Task并读取具体的Block,作为RDD(弹性分布数据集)的一部分。 写入文件的过程如图2所示。 图2 写入文件过程 HDFS文件写入的详细步骤如下所示: Driver创建要写入文件的目录。 根据RDD分区分块情况,计算出写数据的Task数,并下发这些任务到Executor。 Executor执行这些Task,将具体RDD的数据写入到步骤1创建的目录下。
  • Spark和YARN的关系 Spark的计算调度方式,可以通过YARN的模式实现。Spark共享YARN集群提供丰富的计算资源,将任务分布式的运行起来。Spark on YARN分两种模式:YARN Cluster和YARN Client。 YARN Cluster模式 运行框架如图3所示。 图3 Spark on yarn-cluster运行框架 Spark on YARN-Cluster实现流程: 首先由客户端生成Application信息,提交给ResourceManager。 ResourceManager为Spark Application分配第一个Container(ApplicationMaster),并在该Container上启动Driver。 ApplicationMaster向ResourceManager申请资源以运行Container。 ResourceManager分配Container给ApplicationMaster,ApplicationMaster和相关的NodeManager通讯,在获得的Container上启动Executor,Executor启动后,开始向Driver注册并申请Task。 Driver分配Task给Executor执行。 Executor执行Task并向Driver汇报运行状况。 YARN Client模式 运行框架如图4所示。 图4 Spark on yarn-client运行框架 Spark on YARN-Client实现流程: 在YARN-Client模式下,Driver部署在Client端,在Client端启动。YARN-Client模式下,不兼容老版本的客户端。推荐使用YARN-Cluster模式。 客户端向ResourceManager发送Spark应用提交请求,Client端将启动ApplicationMaster所需的所有信息打包,提交给ResourceManager上,ResourceManager为其返回应答,该应答中包含多种信息(如ApplicationId、可用资源使用上限和下限等)。ResourceManager收到请求后,会为ApplicationMaster寻找合适的节点,并在该节点上启动它。ApplicationMaster是Yarn中的角色,在Spark中进程名字是ExecutorLauncher。 根据每个任务的资源需求,ApplicationMaster可向ResourceManager申请一系列用于运行任务的Container。 当ApplicationMaster(从ResourceManager端)收到新分配的Container列表后,会向对应的NodeManager发送信息以启动Container。 ResourceManager分配Container给ApplicationMaster,ApplicationMaster和相关的NodeManager通讯,在获得的Container上启动Executor,Executor启动后,开始向Driver注册并申请Task。 正在运行的Container不会被挂起释放资源。 Driver分配Task给Executor执行。Executor执行Task并向Driver汇报运行状况。
  • 产品优势 MapReduce服务(MRS)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,用户无需关注硬件的购买和维护。MRS服务拥有强大的Hadoop内核团队,基于华为FusionInsight大数据企业级平台构筑,历经行业数万节点部署量的考验,提供多级用户SLA保障。与自建Hadoop集群相比,MRS还具有以下优势: MRS支持一键式创建、删除、扩缩容集群,并通过弹性公网IP便携访问MRS集群管理系统,让大数据集群更加易于使用。 用户自建大数据集群面临成本高、周期长、运维难和不灵活等问题。针对这些问题,MRS支持一键式创建、删除、扩容和缩容集群的能力,用户可以自定义集群的类型,组件范围,各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与。同时支持用户快速创建多应用场景集群,比如快速创建Hadoop分析集群、HBase集群、Kafka集群。MRS支持部署异构集群,在集群中存在不同规格的虚拟机,允许在CPU类型,硬盘容量,硬盘类型,内存大小灵活组合。 MRS提供了基于弹性公网IP来便捷访问组件WebUI的安全通道,并且比用户自己绑定弹性公网IP更便捷,只需界面鼠标操作,即可简化原先用户需要自己登录虚拟私有云添加安全组规则,获取公网IP等步骤,减少了用户操作步骤。 MRS提供了自定义引导操作,用户可以以此为入口灵活配置自己的集群,通过引导操作用户可以自动化地完成安装MRS还没支持的第三方软件,修改集群运行环境等自定义操作。 MRS支持WrapperFS特性,提供OBS的翻译能力,兼容HDFS到OBS的平滑迁移,解决客户将HDFS中的数据迁移到OBS后,即可实现客户端无需修改自己的业务代码逻辑的情况下,访问存储到OBS的数据。 MRS支持自动弹性伸缩,相对自建Hadoop集群的使用成本更低。 MRS可以按业务峰谷,自动弹性伸缩,在业务繁忙时申请额外资源,业务不繁忙时释放闲置资源,让用户按需使用,帮助用户节省大数据平台闲时资源,尽可能的帮助用户降低使用成本,聚焦核心业务。 在大数据应用,尤其是周期性的数据分析处理场景中,需要根据业务数据的周期变化,动态调整集群计算资源以满足业务需要。MRS的弹性伸缩规则功能支持根据集群负载对集群进行弹性伸缩。此外,如果数据量为周期有规律的变化,并且希望在数据量变化前提前完成集群的扩缩容,可以使用MRS的资源计划特性。MRS服务支持规则和时间计划两种弹性伸缩的策略: 弹性伸缩规则:根据集群实时负载对Task节点数量进行调整,数据量变化后触发扩缩容,有一定的延后性。 资源计划:若数据量变化存在周期性规律,则可通过资源计划在数据量变化前提前完成集群的扩缩容,避免出现增加或减少资源的延后。 弹性伸缩规则与资源计划均可触发弹性伸缩,两者即可同时配置也可单独配置。资源计划与基于负载的弹性伸缩规则叠加使用可以使得集群节点的弹性更好,足以应对偶尔超出预期的数据峰值出现。 MRS支持存算分离,大幅提升大数据集群资源利用率。 针对传统存算一体大数据架构中扩容困难、资源利用率低等问题,MRS采用计算存储分离架构,存储基于公有云对象存储实现11个9的高可靠,无限容量,支撑企业数据量持续增长;计算资源支持0~N弹性扩缩,百节点快速发放。存算分离后,计算节点可实现真正的极致弹性伸缩;数据存储部分基于OBS的跨AZ等能力实现更高可靠性,无需担心地震、挖断光纤等突发事件。存储和计算资源可以灵活配置,根据业务需要各自独立进行弹性扩展,可使资源匹配更精准、更合理,让大数据集群资源利用率大幅提升,综合分析成本降低50%。 同时通过高性能的计算存储分离架构,打破存算一体架构并行计算的限制,最大化发挥对象存储的高带宽、高并发的特点,对数据访问效率和并行计算深度优化(元数据操作、写入算法优化等),实现性能提升。 MRS支持自研CarbonData和自研超级调度器Superior Scheduler,性能更优。 MRS支持自研的CarbonData存储技术。CarbonData是一种高性能大数据存储方案,以一份数据同时支持多种应用场景,并通过多级索引、字典编码、预聚合、动态Partition、准实时数据查询等特性提升了IO扫描和计算性能,实现万亿数据分析秒级响应。 MRS支持自研超级调度器Superior Scheduler,突破单集群规模瓶颈,单集群调度能力超10000节点。Superior Scheduler是一个专门为Hadoop YARN分布式资源管理系统设计的调度引擎,是针对企业客户融合资源池,多租户的业务诉求而设计的高性能企业级调度器。Superior Scheduler可实现开源调度器、Fair Scheduler以及Capacity Scheduler的所有功能。另外,相较于开源调度器,Superior Scheduler在企业级多租户调度策略、租户内多用户资源隔离和共享、调度性能、系统资源利用率和支持大集群扩展性方面都做了针对性的增强,让Superior Scheduler直接替代开源调度器。 MRS基于鲲鹏处理器进行软硬件垂直优化,充分释放硬件算力,实现高性价比。 MRS支持华为自研鲲鹏服务器,充分利用鲲鹏多核高并发能力,提供芯片级的全栈自主优化能力,使用华为自研的操作系统EulerOS、华为JDK及数据加速层,充分释放硬件算力,为大数据计算提供高算力输出。在性能相当情况下,端到端的大数据解决方案成本下降30%。 MRS支持多种隔离模式及企业级的大数据多租户权限管理能力,安全性更高。 MRS服务支持资源专属区内部署,专属区内物理资源隔离,用户可以在专属区内灵活地组合计算存储资源,包括专属计算资源+共享存储资源、共享计算资源+专属存储资源、专属计算资源+专属存储资源。MRS集群内支持逻辑多租户,通过权限隔离,对集群的计算、存储、表格等资源按租户划分。 MRS支持Kerberos安全认证,实现了基于角色的安全控制及完善的审计功能。 MRS支持对接华为云云审计服务(CTS),为用户提供MRS资源操作请求及请求结果的操作记录,供用户查询、审计和回溯使用。支持所有集群操作审计,所有用户行为可溯源。 MRS支持与主机安全服务对接,针对主机安全服务,做过兼容性测试,保证功能和性能不受影响的情况下,增强服务的安全能力。 MRS支持基于WebUI的统一的用户登录能力,Manager自带用户认证环节,用户只有通过Manager认证才能正常访问集群。 MRS支持数据存储加密,所有用户账号密码加密存储,数据通道加密传输,服务模块跨信任区的数据访问支持双向证书认证等能力。 MRS大数据集群提供了完整的企业级大数据多租户解决方案。多租户是MRS大数据集群中的多个资源集合(每个资源集合是一个租户),具有分配和调度资源(资源包括计算资源和存储资源)的能力。多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 MRS支持细粒度权限管理,结合华为云IAM服务提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对MRS服务,管理员能够控制IAM用户仅能对集群进行指定的管理操作。如不允许某用户组删除集群,仅允许操作MRS集群基本操作,如创建集群、查询集群列表等。同时MRS支持多租户对OBS存储的细粒度权限管理,根据多种用户角色来区分访问OBS桶及其内部的对象的权限,实现MRS用户对OBS桶下的目录权限控制。 MRS支持企业项目管理。企业项目是一种云资源管理方式,企业管理(Enterprise Management)提供面向企业客户的云上资源管理、人员管理、权限管理、财务管理等综合管理服务。区别于管理控制台独立操控、配置云产品的方式,企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。MRS支持已开通企业项目服务的用户在创建集群时为集群配置对应的项目,然后使用企业项目管理对MRS上的资源进行分组管理。此特性适用于客户针对多个资源进行分组管理,并对相应的企业项目进行诸如权限控制、分项目费用查看等操作的场景。 MRS管理节点均实现HA,支持完备的可靠性机制,让系统更加可靠。 MRS在基于Apache Hadoop开源软件的基础上,在主要业务部件的可靠性方面进行了优化和提升。 管理节点均实现HA Hadoop开源版本的数据、计算节点已经是按照分布式系统进行设计的,单节点故障不影响系统整体运行;而以集中模式运作的管理节点可能出现的单点故障,就成为整个系统可靠性的短板。 MRS对所有业务组件的管理节点都提供了类似的双机的机制,包括Manager、Presto、HDFS NameNode、Hive Server、HBase HMaster、YARN Resources Manager、Kerberos Server、Ldap Server等,全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。 完备的可靠性机制 通过可靠性分析方法,梳理软件、硬件异常场景下的处理措施,提升系统的可靠性。 保障意外掉电时的数据可靠性,不论是单节点意外掉电,还是整个集群意外断电,恢复供电后系统能够正常恢复业务,除非硬盘介质损坏,否则关键数据不会丢失。 硬盘亚健康检测和故障处理,对业务不造成实际影响。 自动处理文件系统的故障,自动恢复受影响的业务。 自动处理进程和节点的故障,自动恢复受影响的业务。 自动处理网络故障,自动恢复受影响的业务。 MRS提供统一的可视化大数据集群管理界面,让运维人员更加轻松。 MRS提供统一的可视化大数据集群管理界面,包括服务启停、配置修改、健康检查等能力,并提供可视化、便捷的集群管理监控告警功能;支持一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。 MRS联合消息通知服务(SMN),在配置消息通知后,可以实时给用户发送MRS集群健康状态,用户可以通过手机短信或邮箱实时接收到MRS集群变更及组件告警信息,帮助用户轻松运维,实时监控,实时发送告警。 MRS支持滚动补丁升级,可视化补丁发布信息,一键式补丁安装,无需人工干预,不停业务,保障用户集群长期稳定。 MRS服务支持运维授权的功能,用户在使用MRS集群过程中,发生问题可以在MRS页面发起运维授权,由运维人员帮助客户快速定位问题,用户可以随时收回该授权。同时用户也可以在MRS页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。 MRS支持将创建集群失败的日志转储到OBS,便于运维人员获取日志进行分析。 MRS具有开放的生态,支持无缝对接周边服务,快速构建统一大数据平台。 以全栈大数据MRS服务为基础,企业可以一键式构筑数据接入、数据存储、数据分析和价值挖掘的统一大数据平台,并且与数据治理中心DataArts Studio及数据可视化等服务对接,为客户轻松解决数据通道上云、大数据作业开发调度和数据展现的困难,使客户从复杂的大数据平台构建和专业大数据调优和维护中解脱出来,更加专注行业应用,使客户完成一份数据多业务场景使用的诉求。DataArts Studio是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务、数据可视化等功能。MRS数据支持连接DataArts Studio平台,并基于可视化的图形开发界面、丰富的数据开发类型(脚本开发和作业开发)、全托管的作业调度和运维监控能力,内置行业数据处理pipeline,一键式开发,全流程可视化,支持多人在线协同开发,极大地降低了用户使用大数据的门槛,帮助用户快速构建大数据处理中心,对数据进行治理及开发调度,快速实现数据变现。 MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能够帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码0修改,业务0中断”。
  • Flink滑动窗口增强 本节主要介绍Flink滑动窗口以及滑动窗口的优化方式。 Flink窗口的详细内容请参见官网:https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/stream/operators/windows.html。 窗口介绍 窗口中数据的保存形式主要有中间结果和原始数据两种,对窗口中的数据使用公共算子,如sum等操作时(window(SlidingEventTimeWindows.of(Time.seconds(20), Time.seconds(5))).sum)仅会保留中间结果;当用户使用自定义窗口时(window(SlidingEventTimeWindows.of(Time.seconds(20), Time.seconds(5))).apply(new UDF))保存所有的原始数据。 用户使用自定义SlidingEventTimeWindow和SlidingProcessingTimeWindow时,数据以多备份的形式保存。假设窗口的定义如下: window(SlidingEventTimeWindows.of(Time.seconds(20), Time.seconds(5))).apply(new UDFWindowFunction) 当一个数据到来时,会被分配到20/5=4个不同的窗口中,即数据在内存中保存了4份。当窗口大小/滑动周期非常大时,冗余现象非常严重。 图1 窗口原始结构示例 假设一个数据在102秒时到来,它将会被分配到[85, 105)、[90, 110)、[95, 115)以及[100, 120)四个不同的窗口中。 窗口优化 针对上述SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始数据时存在的数据冗余问题,对保存原始数据的窗口进行重构,优化存储,使其存储空间大大降低,具体思路如下: 以滑动周期为单位,将窗口划分为若干相互不重合的pane。 每个窗口由一到多个pane组成,多个pane对窗口构成了覆盖关系。所谓一个pane即一个滑动周期,如:在窗口window(SlidingEventTimeWindows.of(Time.seconds(20), Time.seconds.of(5)))中pane的大小为5秒,假设这个窗口为[100, 120),则包含的pane为[100, 105), [105, 110), [110, 115), [115, 120)。 图2 窗口重构示例 当某个数据到来时,并不分配到具体的窗口中,而是根据自己的时间戳计算出该数据所属的pane,并将其保存到对应的pane中。 一个数据仅保存在一个pane中,内存中只有一份。 图3 窗口保存数据示例 当需要触发某个窗口时,计算该窗口包含的所有pane,并取出合并成一个完整的窗口计算。 图4 窗口触发计算示例 当某个pane不再需要时,将其从内存中删除。 图5 窗口删除示例 通过优化,可以大幅度降低数据在内存以及快照中的数量。 父主题: Flink开源增强特性
  • CarbonData关键技术和优势 快速查询响应:高性能查询是CarbonData关键技术的优势之一。CarbonData查询速度大约是Spark SQL查询的10倍。CarbonData使用的专用数据格式围绕高性能查询进行设计,其中包括多种索引技术、全局字典编码和多次的Push down优化,从而对TB级数据查询进行最快响应。 高效率数据压缩:CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%~80%数据存储空间,很大程度上节省硬件存储成本。
  • CarbonData特性 SQL功能:CarbonData与Spark SQL完全兼容,支持所有可以直接在Spark SQL上运行的SQL查询操作。 简单的Table数据集定义:CarbonData支持易于使用的DDL(数据定义语言)语句来定义和创建数据集。CarbonData DDL十分灵活、易于使用,并且足够强大,可以定义复杂类型的Table。 便捷的数据管理:CarbonData为数据加载和维护提供多种数据管理功能。CarbonData支持加载历史数据以及增量加载新数据。加载的数据可以基于加载时间进行删除,也可以撤销特定的数据加载操作。 CarbonData文件格式是HDFS中的列式存储格式。该格式具有许多新型列存储文件的特性,例如,分割表,数据压缩等。CarbonData具有以下独有的特点: 伴随索引的数据存储:由于在查询中设置了过滤器,可以显著加快查询性能,减少I/O扫描次数和CPU资源占用。CarbonData索引由多个级别的索引组成,处理框架可以利用这个索引来减少需要安排和处理的任务,也可以通过在任务扫描中以更精细的单元(称为blocklet)进行skip扫描来代替对整个文件的扫描。 可选择的数据编码:通过支持高效的数据压缩和全局编码方案,可基于压缩/编码数据进行查询,在将结果返回给用户之前,才将编码转化为实际数据,这被称为“延迟物化”。 支持一种数据格式应用于多种用例场景:例如,交互式OLAP-style查询,顺序访问(big scan),随机访问(narrow scan)。
  • CarbonData结构 CarbonData作为Spark内部数据源运行,不需要额外启动集群节点中的其他进程,CarbonData Engine在Spark Executor进程之中运行。 图2 CarbonData结构 存储在CarbonData Table中的数据被分成若干个CarbonData数据文件,每一次数据查询时,CarbonData Engine模块负责执行数据集的读取、过滤等实际任务。CarbonData Engine作为Spark Executor进程的一部分运行,负责处理数据文件块的一个子集。 Table数据集数据存储在HDFS中。同一Spark集群内的节点可以作为HDFS的数据节点。
  • 特性简介 大数据集群运行过程中经常会进行如下操作: 大数据集群变更,比如扩容、缩容集群。 业务数据量突然变化,集群触发弹性伸缩。 相关业务结束,需要终止大数据集群等。 用户想要及时得知这些操作是否执行成功,以及当集群出现大数据服务不可用,或节点故障时,用户希望不用频繁登录集群查看,就可以及时地收到告警通知。MRS联合消息通知服务(SMN),可以将以上信息主动地通知到用户的手机及邮箱,让维护更加省心省力。
  • 特性描述 MRS联合消息通知服务(SMN),采用主题订阅模型,提供一对多的消息订阅以及通知功能,能够实现一站式集成多种推送通知方式。 首先,作为主题拥有者,可以先创建一个主题,并对主题设置访问控制权限来决定哪些发布者和订阅者可以通过该主题进行交流。MRS将集群消息发送至您有权限发布消息的主题,然后所有订阅了该主题的订阅者(可以是手机短信、邮箱等)都将收到集群变更以及组件告警的消息。 图1 实现过程
  • 应用开发认证 MRS各组件提供了应用开发接口,用于客户或者上层业务产品集群使用。在应用开发过程中,安全模式的集群提供了特定的应用开发认证接口,用于应用程序的安全认证与访问。例如hadoop-common api提供的UserGroupInformation类,该类提供了多个安全认证API接口: setConfiguration()主要是获取对应的配置,设置全局变量等参数。 loginUserFromKeytab()获取TGT接口。
  • 集群内服务认证 在使用安全模式的MRS集群中,任意服务间的相互访问基于Kerberos安全架构方案。集群内某个服务(例如HDFS)在启动准备阶段的时候,会首先在Kerberos中获取该服务对应的服务名称sessionkey(即keytab,用于应用程序进行身份认证)。其他任意服务(例如YARN)需要访问HDFS并在HDFS中执行增、删、改、查数据的操作时,必须获取对应的TGT和ST,用于本次安全访问的认证。
  • 节点隔离 当用户发现某个主机出现异常或故障,无法提供服务或影响集群整体性能时,可以临时将主机从集群可用节点排除,使客户端访问其他可用的正常节点。在为集群安装补丁的场景中,也支持排除指定节点不安装补丁。隔离主机仅支持隔离非管理节点。 主机隔离后该主机上的所有角色实例将被停止,且不能对主机及主机上的所有实例进行启动、停止和配置等操作。另外,主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。 父主题: 集群管理
  • MRS集群版本类型 MRS集群版本类型分为普通版与LTS版本,不同版本集群所包含的组件内容及特性略有不同,用户可根据自身业务需求进行选择。 普通版 功能说明 普通版支持集群基础操作如配置、管理和运维等,具体可以查看用户指南。 组件介绍 除共有组件外,普通版集群还支持Presto、Impala、Kudu、Sqoop等组件,可以根据不同集群版本选择不同的组件,具体各版本集群的组件详情可以参考MRS组件版本一览表和组件操作指南。 LTS版 功能说明 LTS版集群除支持集群基础操作外,还提供版本升级能力。如需使用该功能请联系智能数据专家服务。 组件介绍 除共有组件外,LTS版集群还支持HetuEngine、IoTDB等组件,可以根据不同集群版本选择不同的组件,具体各版本集群的组件详情可以参考MRS组件版本一览表和组件操作指南。
共100000条