华为云用户手册

  • 为节点增加标签 为集群增加默认标签时自动增加节点标签,请参见•为已有集群增加集群标签。 弹性伸缩方式为节点自动增加节点标签 配置弹性伸缩策略时添加标签,MRS会自动为新扩容的节点加上该标签,并将标签同步至云服务器和云硬盘。 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。选中一个运行中的集群并单击集群名称,进入集群基本信息页面。 选择“弹性伸缩”页签,进入配置弹性伸缩界面。 在已有弹性伸缩策略右边单击“编辑”按钮,在弹出的对话框输入新添加标签的键和值,单击“添加”。 需要先开启弹性伸缩策略且配置扩容规则,否则通过弹性伸缩设置的节点标签将不会生效。 如果当前标签配额不足时,请删除集群标签或者修改弹性策略已有的标签,然后再开启弹性伸缩策略。 资源池维度的弹性伸缩不支持添加标签。 单击“确定”添加标签。
  • 管理标签 在现有集群的标签页,执行标签的增、删、查操作。 登录MRS管理控制台。 在现有集群列表中,单击待管理标签的集群名称。 系统跳转至该集群详情页面。 选择“标签管理”页签,对集群的标签执行增、删、查。 查看 在“标签”页,可以查看当前集群的标签详情,包括标签个数,以及每个标签的键和值。 添加 单击左上角的“添加/编辑标签”,在弹出的“添加/编辑标签”窗口,输入新添加标签的键和值,并单击“确定”。 删除 单击标签所在行“操作”列下的“删除”,如果确认删除,在弹出的“删除标签”窗口,输入“DELETE”,单击“确定”。
  • 通过执行脚本确定主备管理节点 确认MRS集群的Master节点。 登录MapReduce服务管理控制台,选择“现有集群”,单击待操作集群名称,进入集群信息页面。 单击“节点管理”查看Master节点名称,名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。 确认Manager的主备管理节点。 远程登录Master1节点,请参见登录集群节点。 Master节点支持Cloud-Init特性,Cloud-init预配置的用户名“root”,密码为创建集群时设置的密码。 执行以下命令切换用户。 sudo su - root su - omm 执行以下命令确认主备管理节点: MRS 3.x之前版本集群执行命令:sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh MRS 3.x及之后版本集群执行命令:sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh 回显信息中“HAActive”参数值为“active”的节点为主管理节点(如下例中“mgtomsdat-sh-3-01-1”为主管理节点),参数值为“standby”的节点为备管理节点(如下例中“mgtomsdat-sh-3-01-2”为备管理节点)。 Ha mode double NodeName HostName HAVersion StartTime HAActive HAAllResOK HARunPhase 192-168-0-30 mgtomsdat-sh-3-01-1 V100R001C01 20xx-11-18 23:43:02 active normal Actived 192-168-0-24 mgtomsdat-sh-3-01-2 V100R001C01 20xx-11-21 07:14:02 standby normal Deactived 如果当前登录的Master1节点是备管理节点,且需要登录到主管理节点时,请执行以下命令: ssh Master2节点IP地址
  • 对系统的影响 AZ的健康状态由AZ内的存储资源(HDFS)、计算资源(Yarn)和关键角色的健康度是否超过配置阈值决定。 AZ亚健康有两种: 计算资源(Yarn)不健康,存储资源(HDFS)健康,任务无法提交到本AZ,但是数据可以继续往本AZ内读写。 计算资源(Yarn)健康,存储资源(HDFS)部分不健康,任务可以提交到本AZ,部分数据可以在本AZ内读写,依赖于Spark/Hive调度感知数据的本地性。 AZ不健康有三种: 计算资源(Yarn)健康,存储资源(HDFS)不健康,任务虽然可以提交到本AZ,但是数据无法在本AZ内读写,导致任务提交到本AZ无意义。 计算资源(Yarn)不健康,存储资源(HDFS)不健康,任务无法提交到本AZ,数据也无法往本AZ内读写。 除Yarn与HDFS以外,关键角色的健康度低于配置阈值。
  • 前提条件 系统管理员已明确业务需求,并规划好不同系统的域名。 域名只能包含大写字母、数字、圆点(.)及下划线(_),且只能以字母或数字开头。例如“DOMAINA.HW”和“DOMAINB.HW”。 Manager内所有集群全部组件的运行状态均为“良好”。 Manager内所有集群的ZooKeeper服务的“acl.compare.shortName”参数需确保为默认值“true”。否则请修改该参数为“true”后重启ZooKeeper服务。
  • 对系统的影响 修改Manager系统域名时,需要重启所有集群,集群在重启期间无法使用。 修改域名后,Kerberos管理员与OMS Kerberos管理员的密码将重新初始化,请使用默认密码并重新修改。组件运行用户的密码是系统随机生成的,如果用于身份认证,请参见导出认证凭据文件,重新下载keytab文件。 修改域名后,“admin”用户、组件运行用户和系统管理员在修改域名以前添加的“人机”用户,密码会重置为相同密码,请重新修改。重置后的密码由两部分组成:系统生成部分和用户设置部分,系统生成部分为Admin@123,用户设置部分规则参照表2中“密码后缀”参数的说明,默认值为Admin@123。例如:系统生成部分为Admin@123,用户设置部分为Test#$%@123,则此时重置后的密码为Admin@123Test#$%@123。 重置后的密码必需满足当前用户密码策略,使用omm用户登录主OMS节点后,执行如下工具脚本可以获取到修改域名后的“人机”用户密码。 sh ${BIGDATA_HOME}/om-server/om/sbin/get_reset_pwd.sh 密码后缀 user_name 密码后缀为用户设置的参数,如果不指定,则填充为默认值,默认值为“Admin@123”。 user_name为可选参数,默认取值为“admin”。 命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 例如: sh ${BIGDATA_HOME}/om-server/om/sbin/get_reset_pwd.sh Test#$%@123 To get the reset password after changing cluster domain name. pwd_min_len : 8 pwd_char_types : 4 The password reset after changing cluster domain name is: "Admin@123Test#$%@123" “pwd_min_len”和“pwd_char_types”分别表示当前用户密码策略“最小密码长度”和“密码字符类型数目”,“Admin@123Test#$%@123”为修改系统域名后的“人机”用户密码。 修改系统域名后,重置后的密码由系统生成部分和用户设置部分组成,且必需满足当前用户密码策略,长度不足时在Admin@123和用户设置部分中间,使用一个或多个@补全;字符种类为5时,在Admin@123后补充一个空格。 当用户设置部分为Test@123,使用默认用户密码策略时,新密码为“Admin@123Test@123”,长度为17字符种类为4。需满足当前用户密码策略时,新密码处理如表1所示。 表1 满足不同密码策略时的新密码 最小密码长度 字符种类 对比用户密码策略结果 重置后的密码 8到17位 4 已满足用户密码策略 Admin@123Test@123 18位 4 需补充一个@ Admin@123@Test@123 19位 4 需补充两个@ Admin@123@@Test@123 8到18位 5 需补充一个空格 Admin@123 Test@123 19位 5 需补充一个空格和一个@ Admin@123 @Test@123 20位 5 需补充一个空格和两个@ Admin@123 @@Test@123 修改系统域名后,系统管理员在修改域名以前添加的“机机”用户,请重新下载keytab文件。 修改系统域名后,请重新下载并安装集群客户端。 修改系统域名后,如果有运行中的HetuEngine计算实例,需要重启HetuEngine的计算实例。
  • 卸载补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面的“集群组件补丁”页签,在操作列表中单击待卸载补丁名称后的“卸载”,卸载目标补丁。 在弹出的说明窗口中勾选说明信息,并单击“是”,等待补丁卸载成功。 按照补丁说明进行重启组件和卸载客户端补丁操作。 若集群中存在被隔离主的机,集群中被隔离的主机节点不会进行补丁卸载,卸载完成后补丁状态更新为部分卸载成功。隔离节点修复并取消隔离后,可以再次点击“卸载”,此时补丁卸载仅对取消隔离的节点实施。对于MRS 3.x之前的版本,可参考修复隔离主机补丁进行操作。
  • 安装补丁 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 进入“补丁管理”页面的“集群组件补丁”,在操作列表中单击待安装补丁名称后的“安装”,安装目标补丁。 在弹窗口中勾选“我已经阅读《补丁说明》并了解此操作可能需要重启服务。”,单击“是”,等待补丁安装成功。 查看补丁状态,补丁安装完成后,按照补丁说明进行重启组件和安装客户端补丁等操作。 若集群中存在被隔离的主机,集群中被隔离的主机节点不会进行补丁安装,安装完成后补丁状态更新为部分安装成功。隔离节点修复并取消隔离后,可以再次单击“安装”,此时补丁安装仅对取消隔离的节点实施。对于MRS 3.x之前的版本,可参考修复隔离主机补丁进行操作。
  • 可能原因 Flink作业RocksDB的Write P95耗时持续超过阈值的可能原因: MemTable太多引起写限流或写停止,伴随有“ALM-45643 RocksDB的MemTable大小持续超过阈值。 Level0层SST文件数太大,伴随有“ALM-45644 RocksDB的Level0层SST文件数持续超过阈值”的告警。 预估Compaction的大小超过阈值,伴随有“ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值”的告警。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Write P95耗时达到用户配置的阈值(metrics.reporter.alarm.job.alarm.rocksdb.write.micros.threshold,默认值50000,单位微秒),则发送告警。当作业RocksDB的Write P95耗时时间小于或等于阈值,则告警恢复。
  • 添加Task节点 MRS集群创建成功之后,如果需要规划Task类型的节点组进行弹性伸缩,可通过手动添加节点组的方式进行配置。 “自定义”类型集群添加Task节点操作步骤: 在集群详情页面,选择“节点管理”页签,单击“新增节点组”,进入“新增节点组”页面。 节点类型选择“Task”,“部署角色”参数默认选择“NM”部署NodeManager角色,则新增节点组为Task节点组,其他参数根据需要配置。 图1 添加Task节点组 非“自定义”类型集群添加Task节点操作步骤: 在集群详情页面,选择“节点管理”页签,单击“配置Task节点”,进入“配置Task节点”页面。 配置“节点类型”、“节点规格”、“节点数量”、“系统盘”,如开启“添加数据盘”后,还需要配置数据盘的存储类型、大小和数量。 单击“确定”。
  • 约束条件 对于已安装HBase组件的节点组扩容时: 如果集群没有开启节点自动注册DNS,扩容该节点组时需选择不启动组件,之后请参考更新客户端更新完HBase客户端配置后再启动扩容节点上的HBase组件实例。 以下版本默认开启了集群自动注册DNS,也可以请通过查询对应版本元数据查询返回体中features字段是否包含register_dns_server这个值来判断是否支持DNS特性。 MRS 1.9.3、MRS 3.1.0、MRS 3.1.2-LTS、MRS 3.1.5以及MRS 3.2.0-LTS。 扩容后,集群内节点已安装的客户端无需更新,集群外节点安装的客户端请参考更新客户端进行更新。 扩容后,如需对HDFS数据进行均衡操作,请参考配置DataNode容量均衡。如需对Kafka数据进行均衡操作,请参考Kafka均衡工具使用说明。
  • 扩容按需集群 登录MRS管理控制台。 选择 “现有集群” ,选中一个运行中的集群并单击集群名称,进入集群信息页面。 选择“节点管理”页签,在需要扩容的节点组的“操作”列单击“扩容”,进入扩容集群页面。 只有运行中的集群才能进行扩容操作。 设置“系统盘”和“数据盘”的类型、“扩容节点数量”、“启动组件”和“执行引导操作”参数,并单击“确定”。“启动组件”和“执行引导操作”参数部分版本的集群可能不支持,请以界面实际参数为准。 若集群中没有Task节点组,请参考相关任务配置Task节点。 如果创建集群时添加了引导操作,则“执行引导操作”参数有效,开启该功能时扩容的节点会把创建集群时添加的引导操作脚本都执行一遍。 如果“新节点规格”参数有效,则表示与原有节点相同的规格已售罄或已下架,新扩容的节点将按照“新节点规格”增加。 扩容集群前需要检查集群安全组是否配置正确,要确保集群入方向安全组规则中有一条全部协议,全部端口,源地址为可信任的IP访问范围的规则。 进入“扩容节点”窗口,单击“确认”。 页面右上角弹出扩容节点提交成功提示框。 集群扩容过程说明如下: 扩容中:集群正在扩容时集群状态为“扩容中”。已提交的作业会继续执行,也可以提交新的作业,但不允许继续扩容和删除集群,也不建议重启集群和修改集群配置。 扩容成功:集群扩容成功后集群状态为“运行中”,计费会按照新增节点加上已有节点使用的资源计算。 扩容失败:集群扩容失败时集群状态为“运行中”。用户可以执行作业,也可以重新进行扩容操作。 扩容成功后,可以在集群详情的“节点管理”页签查看集群的节点信息。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending Compaction预估总大小小于或等于阈值,则告警恢复。 Pending Compaction预估总大小阈值:取如下两个参数的最小值。 state.backend.rocksdb.soft-pending-compaction-bytes-limit,默认值64GB state.backend.rocksdb.hard-pending-compaction-bytes-limit,默认值256GB
  • 操作步骤 登录MRS管理控制台。 选择“现有集群”,选中一集群并单击集群名,进入集群基本信息页面。 在集群基本信息页,单击“引导操作”。 单击“添加”,根据界面信息填写对应参数。 图1 添加引导操作 表1 参数描述 参数 说明 名称 引导操作脚本的名称。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。 说明: 同一集群内,不允许配置相同的名称。不同集群之间,可以配置相同的名称。 脚本路径 脚本的路径。路径可以是OBS文件系统的路径或虚拟机本地的路径。 OBS文件系统的路径,必须以obs://开头,以.sh结尾。例如:obs://mrs-samples/xxx.sh 虚拟机本地的路径,脚本所在的路径必须以‘/’开头,以.sh结尾。 说明: 同一集群内,不允许配置相同的路径。不同集群之间,可以配置相同的路径。 参数 引导操作脚本参数。 执行节点 选择引导操作脚本所执行的节点类型。 执行时机 选择引导操作脚本执行的时间。 组件首次启动前 组件首次启动后 说明: 为已运行的集群添加引导操作时,只能通过手动方式在节点上执行第三方组件的安装脚本进行安装。 失败操作 该脚本执行失败后,是否继续执行后续脚本和创建集群。 说明: 建议您设置为“继续”,无论此引导操作是否执行成功,则集群都能继续创建。 提权到root用户执行 是否提权到root用户执行。 引导操作需要root用户权限操作时,需要开启该授权功能,否则引导操作可能会执行失败。 说明: 该参数仅适用于MRS 3.1.5版本的集群。 单击“确定”保存添加的引导操作。 单击“是”即可添加成功。
  • 告警解释 系统每60秒周期性检测Kafka各个Topic的过载情况,当检测到某个Topic在过载磁盘上的Partition数占比超出阈值(默认40%)时,产生该告警。 平滑次数为1,当某个Topic在过载磁盘上的Partition数占比低于阈值(默认40%)时,告警恢复。 过载磁盘定义:磁盘分区的IO使用率大于80%的磁盘认为是过载磁盘。 例如: 某TopicA的Partition分布在三个Broker上,其中两个Broker上Partition所在磁盘分区的IO使用率大于80%。 那么,在过载磁盘上的Partition占比等于2/3,大于40%,触发告警。
  • 告警解释 系统每30秒周期性检查SlapdServer节点的CPU使用率,并把实际CPU使用率和阈值相比较,当检测到SlapdServer CPU使用率连续多次(默认值为5)超过设定阈值时,系统将产生此告警。 平滑次数可配置,当平滑次数为1,SlapdServer CPU使用率小于或等于阈值时,该告警恢复。当平滑次数大于1,SlapdServer CPU使用率小于或等于阈值的90%时,该告警恢复。
  • 查看集群补丁信息 查看集群组件的补丁信息。如果集群组件,如Hadoop或Spark等出现了异常,可下载补丁版本,选择“现有集群”,选中一集群并单击集群名,进入集群详情页面升级组件,修复问题。 MRS 3.x版本无补丁版本信息,不涉及此章节。 MRS 版本集群,补丁版本信息如下: 补丁名称:补丁包的名称。 发布时间:补丁包发布的时间。 状态:展示补丁的状态。 补丁内容:补丁版本的描述信息。 操作:可安装或者卸载补丁。 父主题: 集群概览
  • 可能原因 Flink作业RocksDB持续发生is-write-stopped可能的原因: MemTable太多,伴随有“ALM-45643 RocksDB的MemTable大小持续超过阈值”的告警。 Level0层SST文件数太多,伴随有“ALM-45644 RocksDB的Level0层SST文件数持续超过阈值”的告警。 预估Compaction的大小超过阈值,伴随有“ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值”的告警。
  • 告警解释 系统每15分钟周期性检测提交到Yarn上的Mapreduce和Spark应用任务(JDBC常驻任务除外),当检测到任务执行时间超过用户指定的超时时间时,产生该告警,但任务仍继续正常执行。其中,Mapreduce的客户端超时参数为“mapreduce.application.timeout.alarm”,Spark的客户端超时参数为“spark.application.timeout.alarm”(单位:毫秒)。 当该任务结束或者任务被终止后,该告警会自动清除。
  • 登录弹性云服务器(SSH密码方式) 本地使用Windows操作系统 如果本地主机为Windows操作系统,可以按照下面方式登录弹性云服务器。下面步骤以PuTTY为例。 登录MapReduce服务管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 选择“弹性公网IP”页签,单击“绑定弹性IP”为弹性云服务器绑定一个弹性公网IP并记录该IP地址,若已绑定弹性公网IP请跳过该步骤。 运行PuTTY。 单击“Session”。 Host Name (or IP address):输入弹性云服务器所绑定的弹性公网IP。 Port:输入 22。 Connection Type:选择 SSH。 Saved Sessions:任务名称,在下一次使用PuTTY时就可以单击保存的任务名称,即可打开远程连接。 图3 单击Session 单击“Window”,在“Translation”下的“Remote character set:”选择“UTF-8”。 单击“Open”登录云服务器。 如果首次登录云服务器,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“是”将证书保存到本地注册表中。 建立到云服务器的SSH连接后,根据提示输入用户名和密码登录弹性云服务器。 用户名、密码分别是root和创建集群时设置的密码。 本地使用Linux操作系统 如果本地主机为Linux操作系统,您可以参考1~4为弹性云服务器绑定弹性公网IP后,在计算机的命令行中运行如下命令登录弹性云服务器:ssh 弹性云服务器绑定的弹性公网IP
  • 登录弹性云服务器(VNC方式) 登录MapReduce服务管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名,进入集群基本信息页面。 在“节点管理”页签单击Master节点组中某一Master节点名称,登录到弹性云服务器管理控制台。 单击右上角的“远程登录”。 根据界面提示,输入Master节点的用户名和密码。 创建集群时登录方式选择了“密码”,如图1。此时,你需要输入的用户名、密码分别是root和创建集群时设置的密码。 图1 密码方式 创建集群时登录方式选择了密钥对,则使用如下方式登录: 创建集群成功后,参见为弹性云服务器申请和绑定弹性公网IP为集群的Master节点绑定一个弹性IP地址。 使用root用户名和密钥文件,SSH方式远程登录Master节点。 执行passwd root命令,设置root用户密码。 设置成功后,返回界面登录方式,输入root用户名和5.b.iii设置的密码,登录节点。
  • 告警解释 告警模块对Flume Channel的容量状态进行监控,当Channel满的时长超过阈值,或Source向Channel放数据失败的次数超过阈值后,系统即时上报告警。 默认阈值为10,用户可通过conf目录下的配置文件properties.properties修改阈值:修改对应channel的“channelfullcount”参数。 当Flume Channel空间被释放,且告警处理完成时,告警恢复。
  • 处理步骤 检查Hive默认数据仓库权限情况。 以root用户登录客户端所在节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行以下命令进入HDFS客户端安装目录。 cd 客户端安装目录 source bigdata_env kinit 具有supergroup组权限的用户(普通集群跳过该步骤) 执行以下命令修复默认数据仓库权限: 安全环境:hdfs dfs -chmod 770 hdfs://hacluster/user/hive/warehouse 非安全环境:hdfs dfs -chmod 777 hdfs://hacluster/user/hive/warehouse 查看本告警是否恢复。 是,操作结束。 否,执行5。 收集故障信息。 收集客户端后台“hdfs://hacluster/user/hive/warehouse”目录下内容的相关信息。 请联系运维人员,并发送已收集的故障信息。
  • 告警解释 系统每30秒周期性检测omm进程使用情况,执行ps -o nlwp,pid,args, -u omm | awk '{sum+=$1} END {print "", sum}'命令,获取当前omm用户并发的所有进程数,在omm用户下,执行ulimit -u,获取omm用户可以同时打开的进程最大数。 结果相除,获取到对应的omm用户进程使用率。进程使用率默认提供一个阈值范围。当检测到进程使用率超出阈值范围时产生该告警。 平滑次数为3,进程使用率小于或等于阈值时,告警恢复;如果当前平滑次数大于1,进程使用率小于或等于阈值的90%时,告警恢复。
  • 安装完成后必须的手动操作 MRS 3.1.5.0.1版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启Yarn、HDFS和MapReduce服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.2版本的补丁安装/卸载完成后不需要重启大数据组件。 重启组件的范围,是以补丁依次升级给定的范围,即如果是从MRS 3.1.5.0.1打补丁升级到MRS 3.1.5.0.2,需要重启MRS 3.1.0.0.2补丁的组件;如果是跨版本升级的,则需要重启的组件范围是各补丁的合集。 MRS 3.1.5.0.3版本的补丁安装/卸载完成后需要在FusionInsight Manager Web界面上,重启ClickHouse、HDFS、Kafka、Kudu、MapReduce、Yarn和ZooKeeper服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.5.0.3版本的补丁安装完成后,如需对接CES,请联系运维处理。
  • 补丁下载地址 华北-北京一:https://mrs-container1-patch-cn-north-1.obs.cn-north-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京二:https://mrs-container1-patch-cn-north-2.obs.cn-north-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华北-北京四:https://mrs-container1-patch-cn-north-4.obs.cn-north-4.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海一:https://mrs-container1-patch-cn-east-3.obs.cn-east-3.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华东-上海二:https://mrs-container1-patch-cn-east-2.obs.cn-east-2.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz 华南-广州:https://mrs-container1-patch-cn-south-1.obs.cn-south-1.myhuaweicloud.com/MRS_Common_Script/MRS_315_Patch_Diskmgt_v2.1_20230502.tar.gz
  • 安装补丁的影响 MRS 3.1.5版本的补丁安装/卸载过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 慢盘隔离特性约束: 隔离慢盘之前无法判断集群节点是否存在客户私有化数据,因此不要在节点数据盘存放个人私有化数据,避免慢盘隔离时对业务造成影响; 自动触发慢盘隔离动作后,对于原来写两副本数据存在单副本运行的场景,存在一定风险,请知;同时华为侧运维人员会尽快对慢盘进行替换。 慢盘自动隔离能力支持单节点同时出现多个慢盘【默认配置为4】时自动隔离节点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 3.1.5.0.1及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于新建集群该值配置为false,因为HDFS单副本并不属于MRS服务SLA保障范围; 但是对于存量集群,为了考虑兼容性,补丁安装完成后dfs.single.replication.enable配置项值为true,保证客户业务不受影响,建议补丁完成后对于没有单副本诉求时手动修改为false后滚动重启HDFS服务,保证HDFS数据的高可靠; 对于确定存在单副本诉求的文件也可通过dfs.single.replication.exclude.pattern配置项设置单副本的数据文件和目录。 支持EVS磁盘分区容量扩容 MRS 3.1.5.0.3 及之后的补丁版本中diskmgt服务会检测EVS磁盘(受diskmgt服务监控的磁盘)容量是否增加,如果有增加将则会进行该磁盘下分区(单个分区独占磁盘容量)容量和文件系统的扩容,达到自动扩充磁盘分区存储容量的能力。
  • MRS 3.1.5.0.3补丁基本信息 表1 补丁基本信息 补丁号 MRS 3.1.5.0.3 发布时间 2023-11-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 安装MRS 3.1.5.0.3补丁前,需要先安装MRS 3.1.5.0.2补丁,以支持root权限的补丁能力。 新特性和优化 MRS Manager 支持对慢盘自动隔离能力 支持EVS磁盘分区容量扩容 支持D系列磁盘热插拔 支持运维巡检特性 支持监控指标上报CES 支持HDFS单副本检测能力 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.3补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
  • MRS 3.1.5.0.2补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.5.0.2 发布时间 2023-08-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 支持安装root权限的补丁 解决的问题 不涉及 安装完成后必须的手动操作 请参考安装完成后必须的手动操作。 补丁兼容关系 MRS 3.1.5.0.2补丁包中已包含所有MRS 3.1.5版本单点问题修复补丁。 安装补丁的影响 请参考安装补丁的影响。
共100000条