华为云用户手册

  • RGC-GR_SMN_SUBSCRIPTION_CHANGE_PROHIBITED 实现:SCP 类型:Preventive 功能:防止更改RGC设置的SMN主题订阅,此订阅用于触发配置规则合规性更改的通知。 { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "smn:topic:subscribe", "smn:topic:deleteSubscription" ], "Resource": [ "*" ], "Condition": { "StringNotMatch": { "g:PrincipalUrn": "sts::*:assumed-agency:RGCServiceExecutionAgency/*" }, "ForAnyValue:StringMatch": { "g:ResourceTag/RGC-Notifications": [ "RGC-SecurityNotifications", "RGC-AllConfigNotifications", "RGC-AggregateSecurityNotifications" ] } } } ] }
  • RGC-GR_SMN_CHANGE_PROHIBITED 实现:SCP 类型:Preventive 功能:防止更改RGC设置的SMN通知设置。 { "Version": "5.0", "Statement": [ { "Effect": "Deny", "Action": [ "smn:topic:update*", "smn:topic:delete*" ], "Resource": [ "*" ], "Condition": { "StringNotMatch": { "g:PrincipalUrn": "sts::*:assumed-agency:RGCServiceExecutionAgency/*" }, "ForAnyValue:StringMatch": { "g:ResourceTag/RGC-Notifications": [ "RGC-SecurityNotifications", "RGC-AllConfigNotifications", "RGC-AggregateSecurityNotifications" ] } } }, { "Effect": "Deny", "Action": [ "smn:tag:create", "smn:tag:delete" ], "Resource": [ "*" ], "Condition": { "StringNotMatch": { "g:PrincipalUrn": "sts::*:assumed-agency:RGCServiceExecutionAgency/*" }, "ForAnyValue:StringMatch": { "g:TagKeys": "RGC-Notifications" } } } ] }
  • 示例流程 图1 给用户授予RGC权限流程 创建用户组并授权 在IAM控制台创建用户组,并授予RGC只读权限“RGC ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择资源治理中心,进入RGC主界面,在“组织管理”页面单击“创建账号”,尝试创建账号,如果无法创建账号(假设当前权限仅包含RGC ReadOnlyAccess),表示“RGC ReadOnlyAccess”已生效。 在“服务列表”中选择除资源治理外(假设当前策略仅包含RGC ReadOnlyAccess)的任一服务,若提示权限不足,表示“RGC ReadOnlyAccess”已生效。
  • RGC权限 默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 RGC部署时通过物理区域划分,为项目级服务。授权时,“授权范围”需要选择“指定区域项目资源”,然后在指定区域(如华北-北京四)对应的项目(cn-north-4)中设置相关权限,并且该权限仅对此项目生效;如果“授权范围”选择“所有资源”,则该权限在所有区域项目中都生效。访问RGC时,需要先切换至授权区域。 IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对ECS服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,权限的最小粒度为API授权项(action),RGC支持的API授权项请参见权限及授权项说明。 如表1所示,包括了RGC的所有系统权限。 表1 RGC系统权限 系统角色/策略名称 描述 类别 依赖关系 RGC FullAccess 资源治理中心管理员权限,拥有该权限的用户可以操作并使用资源治理中心。 系统策略 无 RGC ReadOnlyAccess 资源治理中心只读权限,拥有该权限的用户仅能查看资源治理中心数据。 系统策略 无 表2列出了RGC常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 常用操作与系统权限的关系 操作 RGC FullAccess RGC ReadOnlyAccess 创建组织单元 √ x 创建账号 √ x 查看组织单元 √ √ 查询账号 √ √ 删除组织单元 √ x 启用控制策略 √ x
  • 操作步骤 访问科大讯飞的AIUI开放平台。 在界面上方的主菜单中,单击“技能工作室”。 选择“我的问答库”页签,单击“创建问答库”。 弹出“创建问答库”对话框,如图1所示。参数设置说明如下所示: 问答类型:选择“文档问答”。 问答库名称:请自定义名称,示例:robot。 图1 创建问答库 单击“创建”,进入“知识基本信息”页面,如图2所示。 可单击“下载模板”,将模板下载至本地,基于模板修改为实际的内容后上传至当前页面。 注意:MetaStudio服务目前仅支持读取docx(包含图文)、txt和md格式,其他格式暂不支持。 docx格式说明:可以没有标题和分级标题, 如需添加标题和分级标题,请使用word标准格式,如图3和图4所示。 txt格式说明:文档内容当前仅支持纯文本,一行对应一条知识。 最终实现问答时,如果用户问题匹配到问答库中的内容时,将返回问题对应文档内的文本及图片内容。 图2 知识基本信息 图3 标题 图4 分级标题 单击“保存文档”。等待文档名称右侧的状态,从“解析中”变为“已解析未发布”,如图5所示。 图5 保存文档 单击界面右上方的“构建发布”。发布成功后,文档名称右侧的状态更新为“发布成功”,如图6所示。 图6 构建发布
  • 操作步骤 在界面上方的主菜单中,单击“我的应用”。 单击“AIUI应用接入”下方的“进入应用”。 单击新增应用所在行的图标,进入“应用配置”页面。 图1 应用配置页面 请根据实际情况,配置“自然语言模型”。 取值如下: AIUI通用语义模型 星火交互认知大模型 单击“管理技能配置”,弹出“配置应用需要的技能”对话框,如图2所示。 在“自定义”区域,找到创建技能(科大讯飞)中创建的技能,并开启卡片区域中右上角的开关。此时,应用已具备基础的对话能力,并能回答已配置的语料内容。 图2 配置应用需要的技能 仅4选择“星火交互认知大模型”时,才需执行本步骤。 打开已创建问答库“robot”的开关,如图3所示。 图3 配置应用需要的技能 单击右上方的“保存配置”。界面提示“保存成功”,回到“应用配置”页面。 单击界面右上方的“保存修改”。界面提示“保存成功”,说明应用配置完成。
  • 操作步骤 在界面上方的主菜单中,单击“我的应用”。 单击“AIUI应用接入”下方的“进入应用”。 单击新增应用所在行的图标,进入“应用配置”页面。 在左侧导航栏中,单击“应用信息”。进入“应用信息”页面,如图1所示。 MetaStudio服务创建智能交互时,需要使用如下应用信息: 应用名称 APPID APPKEY APISECRET 如果科大讯飞平台创建的应用,“自然语言理解”配置为“星火交互认知大模型”时,如4所示,端侧需要将这里的APPID和APPKEY配置到“aiui.cfg”文件中。 图1 应用信息
  • 操作步骤 访问科大讯飞的AIUI开放平台。 单击界面上方的“技能工作室”。进入“技能控制台”页面,如图1所示。 图1 技能控制台 单击“创建技能”,弹出如图2所示的对话框。 参数配置说明,如下所示: 技能名称:需要与MetaStudio服务新增技能的“技能名称”一致,如6所示。 技能标识:需要与MetaStudio服务新能技能的“技能标识”一致,如6所示。 图2 创建技能 输入完成后,单击“创建”。 界面提示“创建成功”,并自动跳转至“意图”页面,如图3所示。 图3 意图页面 单击“批量操作”,从下拉框中选择“批量覆盖”,在弹出的确定对话框中,单击“确定覆盖”。 从本地选择MetaStudio服务中导出的技能文件,如11所示。界面提示“批量覆盖成功”,效果如图4所示。 图4 意图页面 单击界面右上方的“构建技能”,开始构建技能。 界面提示“构建成功”,说明技能构建成功。 在左侧导航栏中,单击“发布”。进入“发布”页面,如图5所示。 图5 发布页面 确认信息无误后,单击“发布上线”。 界面提示“发布成功”,说明技能发布完成。
  • 操作步骤 访问科大讯飞的AIUI开放平台。 在界面上方的主菜单中,单击“我的应用”。进入“我的应用”页面,如图1所示。 图1 我的应用页面 单击“AIUI应用接入”下方的“进入应用”。进入应用页面,如图2所示。 图2 应用页面 单击“点击创建”,进入“创建应用”页面,如图3所示。 参数配置说明,如下所示: 应用名称:应用名称。 应用分类:从下拉框中选择当前应用所属分类。 设备信息:勾选设备具备的条件。 应用描述:应用描述。 图3 创建应用 单击“确定创建”。界面提示“创建成功”,并弹出如图4所示的对话框。 图4 选择设备需要的AI能力 选择并开启设备需要的AI能力后,单击“确定”。 应用创建成功,自动进入新增应用的“应用配置”页面。
  • 如何获取图片base64编码 OCR服务的输入图片参数是图片的base64编码,本节以Python为例,介绍如何将本地图片,转换为base64编码。您也可以使用在线的图片转base64工具。 使用时,需要将代码的d:\demo.jpg替换为实际图片路径。 import base64 with open("d:/demo.jpg", "rb") as image_file: encoded_string = base64.b64encode(image_file.read()).decode() print(encoded_string) 父主题: API使用类
  • 操作场景 为了满足对健康检查结果的进一步具体分析,您可以在MRS中查看以及导出健康检查的结果。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
  • 日志字段 日志列表默认按时间顺序排列,时间最近的日志显示在最前端。 日志信息中的各字段说明如表1所示。 表1 日志说明 参数 参数说明 操作类型 记录执行的操作类型,包括: 集群操作 作业操作 数据操作 操作IP 记录执行操作的IP地址。 说明: 当MRS集群部署失败时,集群会被自动删除,并且自动删除集群的操作日志中不包含用户的“操作IP”信息。 用户 执行操作的用户。 操作内容 记录实际操作内容,不超过2048字符。 时间 记录操作的时间。对于已删除的集群,界面只显示6个月内的日志信息,若需要查看6个月之前的日志信息,请联系华为云支持人员。 企业项目 操作的集群所属的企业项目。 表2 按钮说明 按钮 说明 在下拉框中选择企业项目,筛选日志。 在下拉框中选择操作类型,筛选日志。 全部:表示筛选所有的日志 集群操作:表示筛选“集群操作”的日志 作业操作:表示筛选“作业操作”的日志 数据操作:表示筛选“数据操作”的日志 根据时间筛选日志。 单击输入框。 选择日期和时间。 单击“确认”。 左侧框为需要查询的开始时间,右侧框为需要查询的结束时间。右侧的输入框选择的时间必须大于或等于左侧输入框的时间,否则,无法根据时间筛选日志。 在搜索框中输入“操作内容”中的关键字,单击,搜索日志。 单击,手动刷新日志列表。
  • 操作步骤 在集群详情页,单击“租户管理”。 图2 租户管理 MRS 3.x及之后版本请参考使用说明。 单击“资源池”页签。 单击“添加资源池”。 在“添加资源池”设置资源池的属性。 “名称”:填写资源池的名称。不支持创建名称为“default”的资源池。 资源池的名称,长度为1到20个字节,可包含数字、字母和下划线,且不能以下划线开头。 “资源标签”:配置资源池的资源标签,包括数字、字母、下划线(_)或减号(-),长度为1~50个字符,且只能以数字或者字母开头。 “可用主机”:在界面左边主机列表,勾选指定的主机名称加入资源池。只支持选择本集群中的主机。资源池中的主机列表可以为空。 单击“确定”保存。 完成资源池创建后,用户可以在资源池的列表中查看资源池的“名称”、“成员”、“类型”、“虚拟核数”与“内存”。已加入自定义资源池的主机,不再是“default”资源池的成员。
  • 操作方法 管理组件监控 MRS Manager操作,请参考管理服务监控操作。 在MRS集群详情页面,单击“组件管理”。 服务操作状态描述如表1所示。 表1 服务操作状态 状态 描述 已启动 服务已启动。 已停止 服务已停止。 启动失败 用户启动操作失败。 停止失败 用户停止操作失败。 未知 后台系统重启后,服务的初始状态。 服务健康状态如表2所示。 表2 服务健康状态 状态 描述 良好 该服务中所有角色实例正常运行。 故障 至少一个角色实例运行状态为“故障”或被依赖的服务状态不正常。 未知 该服务中所有角色实例状态为“未知”。 正在恢复 后台系统正在尝试自动启动服务。 亚健康 该服务所依赖的服务状态不正常,异常服务的相关接口无法被外部调用。 服务配置状态如表3所示。 表3 服务配置状态 状态 描述 已同步 系统中最新的配置信息已生效。 配置超期 参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 配置失败 参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 配置中 参数配置进行中。 未知 无法获取当前配置状态。 单击列表中指定服务名称,查看服务状态及指标信息。 定制、查看监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 管理角色实例监控 针对MRS 3.x之前版本,请参考管理角色实例监控操作。 在MRS集群详情页面,单击“组件管理”,在组件列表中单击服务指定名称。 图1 组件管理 单击“实例”,查看角色状态。 图2 实例 角色实例列表中包含实例信息的角色、主机名、管理IP、业务IP、机架、运行状态及配置状态。 角色实例的运行状态如表4所示。 表4 角色实例运行状态 状态 描述 良好 表示实例当前运行正常。 故障 表示实例当前无法正常工作。 已退服 表示实例处于退服状态。 未启动 表示实例已停止。 未知 表示实例的初始状态信息无法检测。 正在启动 表示实例正在执行启动过程。 正在停止 表示实例正在执行停止过程。 正在恢复 表示实例可能存在异常正在自动修复。 正在退服 表示实例正在执行退服过程。 正在入服 表示实例正在执行入服过程。 启动失败 表示实例启动操作失败。 停止失败 表示实例停止操作失败。 角色实例的配置状态如表5所示。 表5 角色实例配置状态 状态 描述 已同步 系统中最新的配置信息已生效。 配置超期 参数修改后,最新的配置未生效。需重启相应服务生效最新配置信息。 配置失败 参数配置过程中出现通信或读写异常。尝试使用“同步配置”恢复。 配置中 参数配置进行中。 未知 无法获取当前配置状态。 默认以“角色”列按升序排列,单击角色、主机名、管理IP、业务IP、机架、运行状态或配置状态可修改排列方式。 支持在“角色”筛选相同角色的全部实例。 单击“高级搜索”,在角色搜索区域中设置搜索条件,单击“搜索”,查看指定的角色信息。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。 单击列表中指定角色实例名称,查看角色实例状态及指标信息。 定制、查看监控图表。 在“图表”区域框中,单击“定制”自定义服务监控指标。 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。 管理主机监控 针对MRS 3.x之前版本,请参考管理主机监控操作。 在MRS集群详情页面,单击“节点管理”并展开节点组信息,查看所有主机状态。 主机列表中包括节点名称/资源ID、IP、状态、规格、云硬盘、可用区等信息。 主机操作状态如表6所示。 表6 主机操作状态 状态 描述 正常 主机及主机上的服务角色正常运行。 已隔离 主机被用户隔离,主机上的服务角色停止运行。 主机健康状态描述如表7所示。 表7 主机健康状态 状态 描述 良好 主机心跳检测正常。 故障 主机心跳超时未上报。 未知 执行添加操作时,主机的初始状态。 默认以“节点名称”列按升序排列,单击参数指标后的可修改排列方式。 单击列表中指定的节点名称,查看单个节点状态及指标。
  • 自动化脚本 在添加自动化脚本时,可以参考表4配置相应参数。 表4 自动化脚本配置说明 配置项 说明 名称 自动化脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。 说明: 同一集群内,不允许配置相同的名称。不同集群之间,可以配置相同的名称。 脚本路径 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以.sh结尾。例如,安装Zepelin的示例脚本路径如下:/opt/bootstrap/zepelin/zepelin_install.sh 执行节点 选择自动化脚本所执行的节点类型。 说明: 如果选择Master节点,您可以通过开关选择是否只在Active Master节点执行此脚本。 如果选择开启此功能,表示只在Active Master节点上执行。如果选择关闭,表示在所有Master节点执行。默认关闭。 参数 自动化脚本参数,支持通过传入以下预定义变量获得弹性伸缩相关信息: ${mrs_scale_node_num} :弹性伸缩节点数量,总是正数 ${mrs_scale_type} :弹性伸缩类型,扩容为“scale_out”,缩容为“scale_in” ${mrs_scale_node_hostnames} :弹性伸缩节点的主机名,多个主机名之间以“,”隔开 ${mrs_scale_node_ips} :弹性伸缩节点的IP,多个IP之间以“,”隔开 ${mrs_scale_rule_name}:触发弹性伸缩的规则名,如果是资源计划则为“resource_plan” 执行时机 选择自动化脚本执行的时间。支持“扩容前”、“扩容后”、“缩容前”、“缩容后”四种类型。 说明: 假设执行节点类型中包含Task节点: 执行时机为扩容前的脚本不会在将要扩容出的Task节点上执行。 执行时机为扩容后的脚本会在扩容出的Task节点上执行。 执行时机为缩容前的脚本会在即将被删除的Task节点上执行。 执行时机为缩容后的脚本不会在已经被删除的Task节点上执行。 失败操作 该脚本执行失败后,是否继续执行后续脚本和扩缩容操作。 说明: 建议您在调试阶段设置为“继续”,无论此脚本是否执行成功,则集群都能继续扩缩容操作。 若脚本执行失败,请到集群虚拟机机的“/var/log/Bootstrap”路径下查看失败日志。 由于缩容成功不可回滚,缩容后执行的脚本失败操作只能选择“继续”。 自动化脚本只在弹性伸缩时触发,手动调整集群节点时不会运行。
  • 资源池维度策略 在添加规则时,可以参考表2配置相应的指标。 MRS 3.1.5及其之后的版本支持配置资源池维度策略。 表2 规则配置项说明 集群类型 指标名称 数值类型 说明 分析集群/自定义集群 ResourcePoolMemoryAvailable 整型 资源池YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 ResourcePoolMemoryAvailablePercentage 百分比 资源池YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 ResourcePoolCPUAvailable 整型 资源池YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 ResourcePoolCPUAvailablePercentage 百分比 资源池YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 在添加资源计划时,可以参考表3配置相应的参数。 表3 资源计划配置项说明 配置项 说明 生效日期 资源计划的生效日期。默认是每日生效,也可以选择周一至周日任意一天或几天生效。 时间范围 资源计划的起始时间和结束时间,精确到分钟,取值范围[00:00, 23:59]。例如资源计划开始于早上8:00,结束于10:00,则配置为8:00-10:00。结束时间必须晚于开始时间至少30分钟。 节点数量范围 资源计划内的节点数量上下限,取值范围[0,500],在资源计划时间内,集群Task节点数量小于最小节点数时,弹性伸缩会将集群Task节点一次性扩容到最小节点数。在资源计划时间内,集群Task节点数量大于最大节点数时,弹性伸缩会将集群Task节点一次性缩容到最大节点数。最小节点数必须小于或等于最大节点数。 当启用资源计划时,弹性伸缩配置中的“默认节点数量范围”将在资源计划外的时间段内强制生效。例如“默认节点数量范围”配置为1-2,配置资源计划:08:00-10:00之间节点数量范围为4-5,则在一天中的非资源计划时间段(0:00-8:00以及10:00-23:59)内,Task节点会被强制限制在1个到2个中间,若节点数量大于2则触发自动缩容,若节点数量小于1则触发自动扩容。 当不启用资源计划时,节点数量范围的“默认范围”会在全部时间范围生效,如果节点数量不在“节点数量范围”的默认范围,主动增减Task节点数量到默认范围内。 资源计划间时间段不可交叉,时间段交叉意为某个时间点存在两个生效的资源计划,例如配置资源计划1在08:00-10:00生效,资源计划2在09:00-11:00生效,则两个资源计划存在时间段交叉,交叉时间段09:00-10:00。 资源计划不能跨天配置,例如如果要配置23:00至次日01:00的资源计划,请配置时间段为23:00-00:00和00:00-01:00的两个资源计划。
  • 节点组维度策略 在添加规则时,可以参考表1配置相应的指标。 表1 弹性伸缩指标列表 集群类型 指标名称 数值类型 说明 流式集群 StormSlotAvailable 整型 Storm组件的可用slot数。 取值范围为[0~2147483646]。 StormSlotAvailablePercentage 百分比 Storm组件可用slot百分比。是可用slot数与总slot数的比值。 取值范围为[0~100]。 StormSlotUsed 整型 Storm组件的已用slot数。 取值范围为[0~2147483646]。 StormSlotUsedPercentage 百分比 Storm组件已用slot百分比。是已用slot数与总slot数的比值。 取值范围为[0~100]。 StormSupervisorMemAverageUsage 整型 Storm组件Supervisor的内存平均使用量。 取值范围为[0~2147483646]。 StormSupervisorMemAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的内存占系统总内存的平均百分比。 取值范围[0 ~ 100]。 StormSupervisorCPUAverageUsagePercentage 百分比 Storm组件Supervisor进程使用的CPU占系统总CPU的平均百分比。 取值范围[0 ~ 6000]。 分析集群 YARNAppPending 整型 YARN组件挂起的任务数。 取值范围为[0~2147483646]。 YARNAppPendingRatio 比率 YARN组件挂起的任务数比例。是YARN挂起的任务数与YARN运行中的任务数比值。 取值范围为[0~2147483646]。 YARNAppRunning 整型 YARN组件运行中的任务数。 取值范围为[0~2147483646]。 YARNContainerAllocated 整型 YARN组件中已分配的container个数。 取值范围为[0~2147483646]。 YARNContainerPending 整型 YARN组件挂起的container个数。 取值范围为[0~2147483646]。 YARNContainerPendingRatio 比率 YARN组件挂起的container比率。是挂起的container数与运行中的container数的比值。 取值范围为[0~2147483646]。 YARNCPUAllocated 整型 YARN组件已分配的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailable 整型 YARN组件可用的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNCPUAvailablePercentage 百分比 YARN组件可用虚拟CPU核心数百分比。是可用虚拟CPU核心数与总虚拟CPU核心数比值。 取值范围为[0~100]。 YARNCPUPending 整型 YARN组件挂起的虚拟CPU核心数。 取值范围为[0~2147483646]。 YARNMemoryAllocated 整型 YARN组件已分配内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailable 整型 YARN组件可用内存大小。单位为MB。 取值范围为[0~2147483646]。 YARNMemoryAvailablePercentage 百分比 YARN组件可用内存百分比。是YARN组件可用内存大小与YARN组件总内存大小的比值。 取值范围为[0~100]。 YARNMemoryPending 整型 YARN组件挂起的内存大小。 取值范围为[0~2147483646]。 表1中指标数值类型为百分比或比率时,有效数值可精确到百分位。其中百分比类型指标数值为去除百分号(%)后的小数值,如16.80即代表16.80%。 混合集群的支持分析集群和流式集群的所有指标。
  • 修改角色实例参数 在集群详情页,单击“组件管理”。 图2 组件管理 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”页签。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 修改某个参数的值后需要取消修改,可以单击恢复。 单击“保存配置”,根据界面提示保存配置。
  • 基于Guardian服务的OBS权限配置说明 基于Guardian服务的存算分离场景下,对于开启了Ranger鉴权的MRS集群,Ranger管理员可以通过Ranger为集群用户配置OBS目录或文件的读、写权限。 同时,基于Guardian权限模型存算分离,依赖Hive级联授权功能,实现用户基于Ranger对业务表授权,自动细粒度关联OBS对应存储目录的权限,无需二次授权,即用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。 Ranger页面OBS授权对象只能针对Manager中自定义的用户组,内置用户组不支持,用户组仅由数字0~9、字母a~Z、下划线或#组成,且最大长度为52个字符,否则将导致策略添加失败。 启用Kerberos认证的集群需要基于Ranger赋权,未启用Kerberos认证的集群默认拥有OBS权限,无需额外配置。 如果当前集群未启用Kerberos认证,访问OBS的用户,需要属于supergroup组。
  • 基于Guardian服务的存算分离配置流程 创建MRS集群。 MRS集群内需包含Guardian、Ranger、Hadoop等基础组件。 目前仅MRS 3.3.0-LTS及之后的版本支持基于Guardian组件对接OBS。 创建OBS委托。 用户需要创建1个具有OBS访问权限的委托,用于Guardian组件对接OBS时使用。 开启Guardian组件对接OBS开关并配置组件。 修改Guardian服务相关配置参数,配置IAM委托认证信息。 配置组件数据回收站目录的清理策略。 在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。 组件对接OBS。 在具备OBS资源的访问权限后,MRS集群内组件可直接访问对应路径。用户可以通过组件客户端以绝对路径方式直接访问OBS文件系统下的资源。
  • 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表,选择待删除的租户,单击。 根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户资源的数据。”,否则将自动删除租户对应的存储空间。 如果确认删除,在弹出的“删除租户”窗口中输入“DELETE ”,单击“确定”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。同时Yarn角色管理中,此租户任务队列不再显示。
  • 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表,选择待删除的租户,单击。 根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据。”,否则将自动删除租户对应的存储空间。 如果使用不属于supergroup组的用户执行删除租户操作,并且不保留租户数据,需要使用属于supergroup组的用户登录HDFS客户端,手动清理租户对应的存储空间,以免数据残留。 如果确认删除,在弹出的“删除租户”窗口中输入“DELETE ”,单击“确定”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。同时Yarn角色管理中,此租户任务队列不再显示。
  • 复制表 若某复制表只存在于集群的部分实例节点上,则无法对该复制表所在的实例节点进行退服。需要在集群中不存在此复制表的所有实例节点上手工创建此复制表。 比如,当前集群2个分片,分片1下面有两个节点A和B,分片2下面有两个节点C和D。创建复制表test的时候没有携带ON CLUSTER关键字,只在节点A和B上创建了该表。 当前如果要退服分片1下面的A和B节点时,则不允许退服,需要在分片2的C和D节点上同时创建复制表test后才能正常退服。 使用如下命令收集各节点数据表: select database,name,engine,create_table_query from system.tables where database != 'system'; 根据结果: 查看engine列,包含Replicated字段的表即为复制表。 对于未退服节点上不存在的复制表,根据create_table_query列的建表语句结果进行创建。
  • Detached数据 若待退服节点上的表进行过detach操作,在detached目录下还存在数据,则无法进行退服。需要先进行attach操作将detached目录下数据处理后再执行退服操作。 执行如下命令查看退服节点的system.detached_parts系统表: select * from system.detached_parts; 如果存在detached part数据,在确认这些partition都没有用的情况下,执行如下命令将part数据删除: ALTER TABLE {table_name} DROP DETACHED PARTITION {partition_expr} SETTINGS allow_drop_detached = 1; 执行完成后,再次查看是否system.detached_parts系统表中的数据已不存在,执行如下命令: select * from system.detached_parts; 如果查询结果为空,则表示当前已不存在detached part。
  • 视图 退服不支持视图自动迁移,且视图不存储数据。可以使用如下命令收集各节点数据表,查看engine列,engine是View引擎即为视图: select database,name,engine from system.tables where database != 'system'; 再执行如下命令将视图逐个删除: drop view {database_name}.{table_name};
  • 第三方引擎的表 退服目前不支持第三方引擎的表自动迁移。 使用如下命令收集各节点数据表,查看engine列,除包含MergeTree、View、MaterializedView、Distributed、Log字段外的其他数据表即为第三方引擎的表,如Memory、HDFS、MySQL等: select database,name,engine from system.tables where database != 'system'; 对于以上第三方引擎表,建议在非退服节点上重建该表,并在退服节点删除该表。
  • 本地非复制表 若某本地非复制表只存在于待退服实例节点上,则无法进行退服。需要在非退服任意一个节点上创建同名的本地非复制表。 比如,当前集群2个分片,分片1下面有两个节点A和B,分片2下面有两个节点C和D。创建非复制表test的时候没有携带ON CLUSTER关键字,只在节点A上创建了该表。 当前如果要退服分片1下面的A和B节点时,则不允许退服,需要在分片2的C或者D一个节点上创建表test后才能正常退服。 使用如下命令收集各节点数据表: select database,name,engine,create_table_query from system.tables where database != 'system'; 根据结果: 查看engine列,不含Replicated字段的表是本地非复制表。 对于未退服节点上不存在的本地非复制表,根据create_table_query列的建表语句进行创建,建表语句样例如下: CREATE TABLE {database}.{table} (‘column name’ type…) ENGINE = MergeTree;
  • 分布式表 退服不支持分布式表自动迁移,建议退服前在非退服节点上重建分布式表。 使用如下命令收集各节点数据表,查看engine列,engine是Distributed引擎即为分布式表: select database,name,engine from system.tables where database != 'system'; 退服前,在非退服节点不重建分布式表本身不影响退服操作,只是可能影响后续业务操作。
  • 集群规模 集群只有1个shard分片,无法进行退服。 同一个shard分片下的多个节点副本必须一起退服或入服。 查询集群分片信息操作: 以客户端安装用户,登录安装客户端的节点,执行命令: cd {客户端安装目录} source bigdata_env 安全模式: kinit ClickHouse组件业务用户 clickhouse client --host ClickHouse的实例IP --port 9440--secure 普通模式: clickhouse client --host ClickHouse的实例IP --user 用户名 --password --port 9000 输入用户密码 执行如下命令查询集群分片信息: select cluster,shard_num,replica_num,host_name from system.clusters;
  • 集群存储空间 集群退服操作前,集群非退服节点磁盘空间需要满足存储所有退服节点的数据,并且各非退服节点的存储空间在退服后还能有大约10%的空间冗余,保证退服后剩余实例正常运行。具体操作步骤如下: 执行此命令收集各节点磁盘空间存储情况: select * from system.disks; free_space列表示磁盘空闲空间,total_space列表示磁盘总空间,total_space-free_space大小即为磁盘已使用空间,获取的值均以字节为单位。 在退服节点执行上述命令,计算total_space-free_space磁盘已使用空间,得到退服节点数据量大小。 在非退服节点执行上述命令,计算(free_space可用空间大小-退服节点数据量)/total_space总存储空间大小,如果结果大于10%,即可正常退服。
共100000条