华为云用户手册

  • 操作步骤 选择“现有集群”,单击集群名称进入集群详情页面。 单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 默认以“生成时间”列按降序排列。针对MRS 3.x之前版本集群,单击“告警ID”、“级别”、“生成时间”可修改排列方式;针对MRS 3.x及以后版本集群,单击“级别”、“生成时间”可修改排列方式。 支持在告警“级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 针对MRS 3.x之前版本集群分别单击页面右上角、、或可以快速筛选级别为“致命”、“严重”、“一般”或“提示”的未清除告警。 针对MRS 3.x及之后版本集群分别单击页面右上角、、或可以快速筛选级别为“紧急”、“重要”、“次要”或“提示”的未清除告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “起止时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看“告警参考”章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,在弹出的对话框单击“确定”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 操作场景 用户可以在MRS上查看、清除告警。 一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。 在MRS界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条,系统自动将最早的一万条已清除告警转存,转存路径为: 3.x以前版本,主管理节点的“${BIGDATA_HOME}/OMSV100R001C00x8664/workspace/data”。 3.x及后续版本,主管理节点的“${BIGDATA_HOME}/om-server/OMS/workspace/data”。 第一次转存告警时自动生成目录。 用户可以选择页面自动刷新间隔的设置,也可以单击马上刷新。 支持三种参数值: “每30秒刷新一次”:刷新间隔30秒。 “每60秒刷新一次”:刷新间隔60秒。 “停止”:停止刷新。
  • 操作步骤 创建用户并授权使用MRS服务,具体请参考创建MRS操作用户。 登录MRS控制台并创建集群,具体请参考购买自定义集群。 在左侧导航栏中选择“现有集群”,单击集群名称进入集群详情页面。 在“概览”页签单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。 在弹窗“IAM用户同步”的“待同步”页面,搜索需要同步IAM用户所在的用户组,单击对应的用户组名称。在“用户”中勾选需要同步的IAM用户,单击“同步”。 如需同步所有的用户,在“待同步”中勾选“全部同步”即可。 如只勾选“用户组”,该用户组下的用户不会同步,必须勾选“用户组”下对应的用户名称才能同步。 在“IAM用户同步”页面会显示所有的用户组,所有灰色不能选择的用户组和用户则不能进行IAM用户同步。 同步请求下发后,返回MRS控制台在左侧导航栏中选择“操作日志”页面查看同步是否成功,日志相关说明请参考查看MRS服务操作日志。 同步成功后,即可使用IAM同步用户进行后续操作。 当IAM用户的用户组的所属策略从MRS ReadOnlyAccess向MRS CommonOperations、MRS FullAccess、MRS Administrator变化时,由于集群节点的SSSD(System Security Services Daemon)缓存刷新需要时间,因此同步完成后,请等待5分钟,等待新修改策略生效之后,再进行提交作业。否则,会出现提交作业失败的情况。 当IAM用户的用户组的所属策略从MRS CommonOperations、MRS FullAccess、MRS Administrator向MRS ReadOnlyAccess变化时,由于集群节点的SSSD缓存刷新需要时间,因此同步完成后,请等待5分钟,新修改策略才能生效。 单击“IAM用户同步”右侧的“同步”后,集群详情页面会出现短时间空白,这是由于正在进行用户数据同步中,请耐心等待,数据同步完成后,页面将会正常显示。 安全集群提交作业:安全集群中用户可通过界面“作业管理”功能提交作业,具体请参考运行MapReduce作业。 集群详情页面页签显示完整(包含“组件管理”,“租户管理”和“备份恢复”)。 登录Manager页面。 使用admin账号登录Manager,具体请参考访问集群Manager。 初始化IAM同步用户密码,具体请参考初始化系统用户密码。 修改用户所在用户组绑定的角色,精确控制Manager下用户权限,具体请参考相关任务修改用户组绑定的角色,如需创建修改角色请参考创建角色。用户所在用户组绑定的组件角色修改后,权限生效需要一定时间,请耐心等待。 使用IAM同步用户及7.b初始化后的密码登录Manager。 当IAM用户权限发生变化时,需要执行4进行二次同步。对于系统用户,二次同步后用户的权限为IAM系统策略定义的权限和用户在Manager自行添加角色的权限的并集。对于自定义用户,二次同步后用户的权限以Manager配置的权限为准。 系统用户:如果IAM用户所在用户组全部都绑定系统策略(RABC策略和细粒度策略均属于系统策略),则该用户为系统用户。 自定义用户:如果IAM用户所在用户组只要有绑定任何自定义策略,则该用户为自定义用户。 取消IAM用户同步。 需要取消某个IAM用户同步时,在“已同步”的“用户”中勾选需要取消的用户名称,单击“取消同步”。 需要取消某个IAM用户组下的所有用户同步时,在“已同步”的“用户组”中勾选需要取消的用户组,单击“取消同步”。
  • 使用限制 请在低业务负载时间段进行滚动重启操作。 例如:在滚动重启kafka服务时候, 如果kafka服务业务吞吐量很高(100M/s以上的情况下),会出现kafka服务滚动重启失败的情况。 例如:在滚动重启HBase服务时候,如果原生界面上每个RegionServer上每秒的请求数超过1W,需要增大handle数来预防重启过程中负载过大导致的RegionServer重启失败。 重启前需要观察当前hbase的负载请求数(原生界面上每个rs的请求数如果超过1W,需要增大handle数来预防到时候负载不过来) 在集群Core节点个数小于6个的情况下,可能会出现业务短时间受影响的情况。 请优先使用滚动重启操作来重启实例或服务,并勾选“仅重启配置过期的实例”。
  • 典型场景操作步骤 在MRS Manager,单击“服务管理”,选择HBase,进入HBase服务页面。 单击“服务配置”页签,修改HBase某个参数并保存配置,在出现如下弹窗后,单击“确定”进行保存。 图6 保存配置 不要勾选“重新启动受影响的服务或实例”,该处重启是普通重启方式,会并发重启所有服务或实例,引起业务断服。 保存配置完成后,单击“完成”。 选择“服务状态”页签。 在“服务状态”页签单击“更多”,选择“滚动重启服务”。 图7 服务状态-滚动重启 输入管理员密码后,弹出“滚动重启服务”页面,勾选“仅重启配置过期的实例”,单击确认,开始滚动重启。 图8 配置滚动重启服务 滚动重启任务完成后,单击“完成”。 图9 滚动重启任务完成
  • 常见事件列表 表3 常见事件列表 事件ID 事件名称 12019 停止服务 12020 删除服务 12021 停止实例 12022 删除实例 12023 删除节点 12024 重启服务 12025 重启实例 12026 Manager主备倒换 12065 进程重新启动 12070 作业执行成功 12071 作业执行失败 12072 作业被终止 12086 Agent进程重启 12152 启动周期性复制 12153 周期性复制完成 12154 启动流式复制 12155 重启流式复制 12156 停止流式复制 12157 周期性同步跳过 14005 NameNode主备倒换 14028 HDFS磁盘均衡任务 14029 主NameNode进入安全模式并生产新的Fsimage 17001 Oozie工作流执行失败 17002 Oozie定时任务执行失败 18001 ResourceManager主备倒换 18004 JobHistoryServer主备倒换 19001 HMaster主备倒换 20003 Hue发生主备切换 24002 Flume Channel溢出 25001 LdapServer主备倒换 27000 DBServer主备倒换 29001 Impala HaProxy服务发生主备切换 29002 Impala StateStoreCatalog服务发生主备切换 38003 Topic数据保存周期配置调整 43014 Spark2x数据倾斜 43015 Spark2x SQL超大查询结果 43016 Spark2x SQL执行超时 43024 启动JDBCServer 43025 停止JDBCServer 43026 ZooKeeper连接成功 43027 ZooKeeper连接异常 44003 Coordinator主备倒换
  • 查看执行结果 登录MRS管理控制台。 在“现有集群”中单击需要查询的集群名称。 系统跳转至该集群详情页面。 在集群详情页面选择“引导操作”页签。系统显示创建集群时所添加的引导操作信息。 可以通过选择右上角的“组件首次启动前”或者“组件首次启动后”查询相关的引导操作信息。 这里列出的是上次执行结果。对于新创建的集群,则列出的是创建时执行引导操作的记录;如果集群被扩容了,则列出的是上次扩容对新增节点执行引导操作的记录。
  • 告警解释 MRS 3.2.0及之后版本: 系统每五分钟执行一次告警检查,首先检查是否启用并正确配置了rng-tools或者haveged工具,如果没有配置,则发送故障告警。否则继续检查熵值,如果连续五次检测结果均小于100,则上报故障告警。 当检测到节点已经安装并启用了rng-tools或者haveged工具,且五次熵值检查中,至少有一次熵值大于等于100,则告警恢复。 MRS 3.1.2及之前版本: 每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具或者haveged工具,如果没有配置,则继续检查当前熵值,如果五次均小于100,则上报故障告警。 当检查到真随机数方式已经配置或者伪随机数方式中配置了随机数参数,或者两者均没有配置但是五次检查中,至少有一次熵值大于等于100,则告警恢复。
  • 背景信息 MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于管理控制台Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。 用户创建作业前需要将本地数据上传至OBS系统,MRS使用OBS中的数据进行计算分析。MRS也支持将OBS中的数据导入至HDFS中,使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。需要注意,HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。
  • 概述 MRS为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。开源组件结构复杂,安装、配置、管理过程费时费力,MRS Manager提供了企业级的大数据集群的统一管理平台: 提供集群状态的监控功能,您能快速掌握服务及主机的健康状态。 提供图形化的指标监控及定制,您能及时的获取系统的关键信息。 提供服务属性的配置功能,满足您实际业务的性能需求。 提供集群、服务、角色实例的操作功能,满足您一键启停等操作需求。
  • 参考信息 MapReduce服务是公有云的一项数据分析服务,用于海量数据的管理和分析,简称MRS。 MRS通过MRS Manager管理大数据组件,例如Hadoop生态体系中的组件。因此,公有云MRS和MRS Manager管理界面上的部分概念需要区别,具体解释如表3: 表3 差异对比参考 名词概念 公有云MRS MRS Manager MapReduce服务 表示公有云上的数据分析云服务,简称为MRS,包括Hive、Spark、Yarn、HDFS和ZooKeeper等组件。 为租户集群中的大数据组件提供的统一管理平台。
  • 通过云专线访问FusionInsight Manager 操作前请确保云专线服务可用,并已打通本地数据中心到线上VPC的连接通道。云专线详情请参考什么是云专线。 登录MRS管理控制台。 单击集群名称进入集群详情页。 在集群详情页面的“概览”页签,单击“集群管理页面”右侧的“前往 Manager”。 “访问方式”选择“专线访问”,并勾选“我确认已打通本地与浮动IP的网络,可使用专线直接访问MRS Manager。”。 浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。 单击“确定”,进入MRS Manager登录页面,用户名使用“admin”,密码为创建集群时设置的admin密码。
  • 通过ECS访问FusionInsight Manager 进入MRS管理控制台。 在“现有集群”列表中,单击指定的集群名称。 记录集群的“可用区”、“虚拟私有云”、“集群管理页面”、“安全组”。 在管理控制台首页服务列表中选择“弹性云服务器”,进入ECS管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。例如,选择一个标准镜像“Windows Server 2012 R2 Standard 64bit(40GB)”。 其他配置参数详细信息,请参见购买弹性云服务器。 如果ECS的安全组和Master节点的“默认安全组”不同,用户可以选择以下任一种方法修改配置: 将ECS的安全组修改为Master节点的默认安全组,请参见更改安全组。 在集群Master节点和Core节点的安全组添加两条安全组规则使ECS可以访问集群,“协议”需选择为“TCP”,“端口”需分别选择“28443”和“20009”。请参见创建安全组。 如果界面提示“添加安全组规则失败”,请检查安全组配额是否不足,请增加配额或删除不再使用的安全组规则。 在VPC管理控制台,申请一个弹性IP地址,并与ECS绑定。 具体请参见为弹性云服务器申请和绑定弹性公网IP。 登录弹性云服务器。 登录ECS需要Windows系统的账号、密码,弹性IP地址以及配置安全组规则。具体请参见Windows云服务器登录方式。 在Windows的远程桌面中,打开浏览器访问Manager。 Manager访问地址为“集群管理页面”地址。访问时需要输入集群的用户名和密码,例如“admin”用户。 如果使用其他集群用户访问Manager,第一次访问时需要修改密码。新密码需要满足集群当前的用户密码复杂度策略。请咨询管理员。 默认情况下,在登录时输入5次错误密码将锁定用户,需等待5分钟自动解锁。 注销用户退出Manager时移动鼠标到右上角 ,然后单击“注销”。
  • 操作场景 MRS 3.x及之后版本的集群使用FusionInsight Manager对集群进行监控、配置和管理。用户在集群安装后可使用账号登录FusionInsight Manager。 当前支持以下几种方式访问FusionInsight Manager,请根据实际情况选择。 通过弹性IP访问FusionInsight Manager。 通过云专线访问FusionInsight Manager。 通过ECS访问FusionInsight Manager。 其中弹性IP访问和专线访问可以在MRS集群管理控制台上进行切换,具体切换操作步骤如下: 登录MRS管理控制台,单击待操作的MRS集群,在集群“概览”页面单击“集群管理页面”后的,在打开的页面中进行切换。 如果不能正常登录组件的WebUI页面,请参考通过ECS访问FusionInsight Manager方式访问FusionInsight Manager。 集群处于以下状态时无法访问FusionInsight Manager: 启动中、停止中、停止、删除中、已删除、冻结。
  • 告警解释 系统每5分钟周期性检测omm用户CGroup任务数使用情况,当CGroup任务使用率超过90%时产生该告警,当使用率小于或等于90%时,告警恢复。 CGroup任务使用率 = CGroup任务使用数 / 最大CGroup任务数。 可以在omm用户下,执行systemctl status user-$(id -u).slice | grep limit | awk -F ' ' '{print $2}'命令,获取当前omm用户CGroup任务使用数;执行echo $(systemctl status user-$(id -u).slice | grep limit | awk -F ' ' '{print $4}') | sed -e 's/)//g'获取omm用户最大CGroup任务数。
  • 概述 MRS 3.x之前的版本的MRS集群使用MRS Manager对集群进行管理、监控,同时用户可通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、补丁管理、文件管理、作业管理、租户管理、备份恢复、引导操作设置及标签管理。 MRS 3.x版本的MRS集群使用FusionInsight Manager对集群进行管理、监控,同时用户可通过MRS管理控制台的集群管理页面,进行集群概览查看、节点管理、组件管理、告警管理、文件管理、作业管理、引导操作设置及标签管理。 MRS 3.x版本集群的部分维护操作与历史版本有部分差异,更多详细操作可参考本Manager操作指导(适用于2.x及之前版本)与Manager操作指导(适用于3.x版本)。
  • 相关任务 配置集群节点名称与IP地址映射 登录Manager,单击“主机管理”。 记录集群中所有节点的“主机名称”和“管理IP”。 在工作环境使用“记事本”打开“hosts”文件,将节点名称与IP地址的对应关系填写到文件中。 每个对应关系填写一行,填写效果例如: 192.168.4.127 node-core-Jh3ER 192.168.4.225 node-master2-PaWVE 192.168.4.19 node-core-mtZ81 192.168.4.33 node-master1-zbYN8 192.168.4.233 node-core-7KoGY 保存修改。
  • 前提条件 系统管理员已明确业务需求,并规划好不同系统的域名。域名只能包含大写字母、数字、圆点(.)及下划线(_),且只能以字母或数字开头。例如“DOMAINA.HW”和“DOMAINB.HW”。 配置跨集群互信前,两个Manager系统的域名必须不同。MRS创建ECS/BMS集群时会随机生成唯一系统域名,通常无需修改。 配置跨集群互信前,两个集群中不能存在有相同的主机名,也不能存在相同的IP地址。 配置互信的两个集群系统时间必须一致,且系统上的NTP服务必须使用同一个时间源。 配置互信的两个集群系统内所有集群全部组件的运行状态均为“良好”。 Manager内所有集群的ZooKeeper服务的“acl.compare.shortName”参数需确保为默认值“true”。否则请修改该参数为“true”后重启ZooKeeper服务。 配置互信的两个集群,需要在相同的VPC中。如果两集群不在同一VPC中,则需要已建立VPC对等连接,相关操作请参考VPC对等连接。
  • 对系统的影响 配置跨集群互信后,外部系统的用户可以在本系统中使用,请系统管理员根据企业业务与安全要求,定期检视Manager系统中用户的权限。 配置跨集群互信时需要重启受影响的服务,会造成对应服务的业务中断。 配置跨集群互信后,互信的集群中均会增加Kerberos内部用户“krbtgt/本集群域名@外部集群域名”、“krbtgt/外部集群域名@本集群域名”,用户不能删除。请系统管理员根据企业安全要求,及时且定期修改密码,需同时修改互信系统中4个用户且密码保持一致。具体请参见修改组件运行用户密码。修改密码期间可能影响跨系统业务应用的连接。 如果修改了系统域名,且集群有运行中的HetuEngine计算实例,需要重启HetuEngine的计算实例。 配置跨集群互信后,各个集群都需要重新下载并安装客户端。 配置跨集群互信后,验证配置后是否可以正常工作,且如何使用本系统用户访问对端系统资源,请参见配置跨集群互信后的用户权限。
  • 通过ECS访问Manager 进入MRS管理控制台。 在 “现有集群” 列表中,单击指定的集群名称。 记录集群的“可用区”、“虚拟私有云”、“安全组”。 在ECS管理控制台,创建一个新的弹性云服务器。 弹性云服务器的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。例如,选择一个标准镜像“Windows Server 2012 R2 Standard 64bit(40GB)”。 其他配置参数详细信息,请参见购买弹性云服务器。 如果ECS的安全组和MRS集群的“默认安全组”不同,用户可以选择以下任一种方法修改配置: 将ECS的安全组修改为MRS集群的默认安全组,请参见更改安全组。 在集群Master节点和Core节点的安全组中添加两条安全组规则使ECS可以访问集群,“协议”需选择为“TCP”,“端口”需分别选择“28443”和“20009”。请参见创建安全组。 在VPC管理控制台,申请一个弹性IP地址,并与ECS绑定。 具体请参见为弹性云服务器申请和绑定弹性公网IP。 登录弹性云服务器。 登录ECS需要Windows系统的账号、密码,弹性IP地址以及配置安全组规则。具体请参见Windows云服务器登录方式。 在Windows的远程桌面中,打开浏览器访问Manager。 例如Windows 2012操作系统可以使用Internet Explorer 11。 Manager访问地址形式为https://OMS浮动IP地址:28443/web。访问时需要输入MRS集群的用户名和密码,例如“admin”用户。 OMS浮动IP地址:远程登录Master2节点,执行“ifconfig”命令,系统回显中“eth0:wsom”表示OMS浮动IP地址,请记录“inet”的实际参数值。如果在Master2节点无法查询到OMS浮动IP地址,请切换到Master1节点查询并记录。如果只有一个Master节点时,直接在该Master节点查询并记录。 如果使用其他MRS集群用户访问Manager,第一次访问时需要修改密码。新密码需要满足集群当前的用户密码复杂度策略。 默认情况下,在登录时输入5次错误密码将锁定用户,需等待5分钟自动解锁。 注销用户退出Manager时移动鼠标到右上角 ,然后单击“注销”。
  • 为其他用户开通访问MRS Manager的权限 在MRS管理控制台,在“现有集群”列表,单击指定的集群名称,进入集群信息页面。 单击弹性公网IP后边的“添加安全组规则”,如图4所示。 图4 集群详情 进入“添加安全组规则”页面,添加需要开放权限用户访问公网的IP地址段并勾选“我确认这里设置的授权对象是可信任的公网访问IP范围,禁止使用0.0.0.0/0,否则会有安全风险。”如图5所示。 图5 添加安全组规则 默认填充的是用户访问公网的IP地址,用户可根据需要修改IP地址段,如需开放多个IP段为可信范围,请重复执行1-4。如需对安全组规则进行查看,修改和删除操作,请单击“管理安全组规则”。 单击“确定”完成安全组规则添加。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值(state.backend.rocksdb.level0_slowdown_writes_trigger,默认20),则发送告警。当作业RocksDB的Level0层SST文件数小于或等于阈值,则告警恢复。
  • 操作步骤 登录MRS管理控制台。 在左侧导航栏中选择“现有集群”。 在需要退订的包年包月集群对应的“操作”列中,单击“退订”。 进入“退订资源”页面,确认待退订集群信息,选择退订原因,并确认退订金额和相关费用。 单击“退订”,进入“退订”页面。 确认退订信息,单击“是”提交退订申请。 退订申请提交成功后,集群状态由“运行中”更新为“删除中”,待集群删除成功后,集群状态更新为“已删除”,并且显示在“历史集群”中。
  • MRS 3.1.2-LTS.2.12补丁基本信息 补丁号 MRS 3.1.2-LTS.2.12 发布时间 2023-07-20 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 支持弹性伸缩到指定资源池 解决的问题 MRS 3.1.2-LTS.2.12修复问题列表: 大数据组件 解决[YARN-10854],修复未配置include nodes文件路径时缩容后内存中节点数据残留问题 补丁兼容关系 MRS 3.1.2-LTS.2.12补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.6补丁基本信息 表3 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.6 发布时间 2022-12-12 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.2.6 修复问题列表: 修复log4j漏洞(CVE-2021-44228),log4j升级到2.17.2版本 包含MRS 3.1.2-LTS.2.2修复问题 补丁兼容关系 MRS 3.1.2-LTS.2.6补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.8补丁基本信息 表2 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.8 发布时间 2023-03-08 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager 租户侧支持指标上报CES功能 自动下载bms插件 大数据组件 OBS故障感知增强,MRS能感知所有OBSA上报的异常 解决的问题 MRS 3.1.2-LTS.2.9修复问题列表: MRS Manager 解决重装主机后hetu的worker启动不到该主机上的问题 解决混搭集群,arm镜像证书与X86镜像证书不互信,导致作业提交到该arm节点上运行失败问题 解决获取ECS的临时ak/sk失败告警帮助文档缺失问题 大数据组件 解决Hive snappy文件调用movefile加入_1后,文件内容出现乱码问题 解决Hive on MR合并不兼容ORC文件导致数据丢失问题 解决HBase RegionServer偶现重启问题 补丁兼容关系 MRS 3.1.2-LTS.2.8补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.2补丁基本信息 表4 补丁基本信息 补丁号 MRS 3.1.2-LTS.2.2 发布时间 2022-10-31 解决的问题 MRS 3.1.2-LTS.2.2 修复问题列表: 解决Hive元数据库查询网络阻塞问题 解决MRS对接DCS做缓存,缓存键一天多次被清空问题 解决CBG访问OBS概率性无权限问题 解决长时间使用客户端出现死锁问题 解决Yarn运行偶现RM主备切换问题 解决Spark SQL外表动态分区执行insert overwrite报错问题 解决周期清理任务清理.hive-staging时,查询数据库失败问题 解决NameNode在大量删除操作的时候会出现RPC请求处理慢的问题 解决Hive配置Redis缓存频繁访问表key导致Redis热键问题 解决磁盘写速率和磁盘读速率两个指标无法正常上报问题 解决查看指定时间段内的资源概况,监控数据部分缺失问题 解决NameNode退服缓存残留问题 解决Metastore监控指标缺失问题 解决认证krb_test_user失败问题 解决Yarn所有业务中断,报错Timer already cancelled问题 解决实例配置页面无单位转换问题 解决相同AZ下,扩容的节点返回的AZ有误问题 解决[YARN-10854]问题 Hive支持Redis缓存连接失败重试 支持OBSA客户端数据监控上报 支持OBS流控重试机制 pms性能优化 mrs-obs-provider的缓存过期优化 优化删除分区的逻辑 Yarn的refresh node速度优化 删除无效告警 补丁兼容关系 MRS 3.1.2-LTS.2.2补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • MRS 3.1.2-LTS.2.10补丁基本信息 补丁号 MRS 3.1.2-LTS.2.10 发布时间 2023-05-23 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 解决的问题 MRS 3.1.2-LTS.2.10修复问题列表: 大数据组件 解决重启Zookeeper节点后Hive SQL执行失败的问题 解决token renew失败的问题 补丁兼容关系 MRS 3.1.2-LTS.2.10补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
  • 安装补丁的影响 MRS 3.1.2-LTS.2.6补丁安装后,目录“/srv/BigData/data1/nm/localdir/filecache/”下的log4j旧版本的包,需要重新提交相关的yarn作业,才会加载新的log4j的包。 MRS 3.1.2-LTS.2版本的补丁安装过程中会自动重启OMS,安装过程中将影响作业提交以及集群扩缩容等管控面集群控制功能,请选择适当的时间进行补丁安装。 MRS 3.1.2-LTS.2版本的补丁安装完成后需要在FusionInsight Manager Web界面重启Flink、Hadoop、HBase、HDFS、Hive、MapReduce、Meta、Spark2x、Ranger和Yarn服务,以使补丁功能生效。组件重启期间,部分业务可能短暂不可用。请选择适当的时间进行重启,以降低对业务持续性的影响。 MRS 3.1.2-LTS.2.14补丁安装后,如出现客户端补丁包生成异常的提示,可按如下步骤执行重新生成客户端补丁包: 登录集群oms主节点。 切换omm用户。 su - omm 登录MRS管理控制台页面,选择“现有集群”,在集群列表中单击指定的集群名称,然后单击补丁管理,进入补丁信息界面,确定当前安装的最新补丁版本号,执行脚本: sh /opt/Bigdata/patches/{补丁版本号}/generate_client_patch.sh 如看到“generate client patch success”打印,则说明生成补丁包成功,如出现ERROR打印,则说明生成失败,可参考步骤a.定位。 查看日志 /opt/Bigdata/patches/log/generate_client_patch.log 具体定位失败原因。
  • MRS 3.1.2-LTS.2.14补丁基本信息 补丁号 MRS 3.1.2-LTS.2.14 发布时间 2023-10-27 安装前处理 如果MRS集群节点故障或者网络不通,需要先隔离该节点,否则补丁会安装失败。 新特性和优化 MRS Manager MRS客户端管理功能增强,客户端管理支持给客户端打补丁 MRS支持运维巡检通道 MRS服务集成StoreWorker/StoreMaster滚动重启,manager新增滚动重启策略 解决的问题 MRS 3.1.2-LTS.2.14修复问题列表: MRS Manager 解决备oms节点上报fms资源异常告警的问题 解决扩容失败HOSTS_OS_PATCH_STATE表IP残留导致后续扩容失败的问题 解决CES监控和Yarn上监控对不上的问题 解决OMS频繁主备倒换的问题 解决查看指定时间段内主机资源概况,监控数据为空,查看失败的问题 解决磁盘监控指标计算不正确的问题 大数据组件 解决Yarn的ResourceManager频繁主备倒换的问题 解决Yarn的NodeManager健康检查太敏感的问题 解决Yarn健康检查误采集备节点健康状态,导致上报服务不可用告警的问题 解决Ldapserver数据不同步的问题 解决安装MRS 3.1.2-LTS.2.6补丁后Hive执行失败的问题 解决HiveServer连接Guardian线程泄漏的问题 解决Hive列值过长写入ORC文件失败的问题 解决Hive异常任务失败(含失败、异常终止等状态)后临时文件清理较慢的问题 解决Hive配置外置元数据,导致hive启动失败的问题 解决Hive的hiveserver.out日志不压缩,导致/var/log/占满的问题 解决Hive分区表增加字段时间长的问题 解决rand函数在0-1直接的随机数字串只能生成0.72左右的问题 解决Hive的WebHcat进程kill后,无法自拉起,无告警上报的问题 解决Kafka在kerberos认证失败之后自动重启存在异常的问题 解决Hudi和Spark目录下的Spring包不兼容的问题 解决Zookeeper配置了配额任然显示设置顶层配额失败的告警的问题 解决老Guardian实例日志需要打印客户端IP的问题 解决MemArtsCC使用TPCDS测试套写10TB数据,任务运行中,cc-sidecar不断重启的问题 解决MemArtsCC裸机环境长稳运行中,cc-sidecar进程故障的问题 解决存算分离场景下Spark作业失败时残留文件需要快速清理的问题 解决Spark打印ERROR日志的问题 解决Spark的JobHistory进程挂起,不自愈,且无告警上报的问题 解决Spark开启推测执行加载分区为null的问题 解决Spark的JDBCServer进程注入进程Z状态故障,1.故障注入期间进程不自愈;2.无进程异常告警;3.spark任务已提交失败,无spark应用不可用告警的问题 解决Spark的JDBC进程kill后,7min自愈,且无告警上报,存在可靠性风险的问题 解决Spark的JDBCServer进程挂起,进程不自愈,且无告警上报,spark应用提交失败的问题 解决Spark停止JDBCServer实例无事件上报,JDBCServer.log里有上报事件失败的warn的问题 解决安装2.10补丁之后Spring的包冲突导致部分Spark作业无法运行的问题 解决Spark的JobHistory进程z状态后,进程异常消失,不自愈,且无告警上报,存在可靠性风险的问题 解决Spark的JobHistory进程kill后,5min自愈,且无告警上报的问题 解决Spark2x切换补丁未替换Spark服务端Jar包的问题 解决Spark写入eventlog失败的问题 补丁兼容关系 MRS 3.1.2-LTS.2.14补丁包中包含所有MRS 3.1.2-LTS.2版本单点问题修复补丁。
共100000条