华为云用户手册

  • LdapServer高危操作 表15 LdapServer高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改LdapServer的参数LDAP_SERVER_PORT 修改该参数后,若没有及时重启LdapServer服务和其关联的所有服务,会导致集群内部LdapClient的配置参数异常,影响业务运行 ★★★★★ 修改该参数后,请重启LdapServer服务和其关联的所有服务 无 恢复LdapServer数据 该操作会重启Manager和整个集群,影响集群的管理维护和业务 ★★★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 更换LdapServer所在节点 该操作会导致部署在该节点上的服务中断,且当该节点为管理节点时,更换节点会导致重启OMS各进程,影响集群的管理维护 ★★★ 更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 修改LdapServer密码 修改密码需要重启LdapServer和Kerberos服务,影响集群的管理维护和业务 ★★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 无 节点重启导致LdapServer数据损坏 如果未停止LdapServer服务,直接重启LdapServer所在节点,可能导致LdapServer数据损坏 ★★★★★ 使用LdapServer备份数据进行恢复 无
  • Hive高危操作 表11 Hive高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改Hive实例的启动参数GC_OPTS 修改该参数可能会导致Hive实例无法启动 ★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效 观察服务能否正常启动 删除MetaStore所有实例 Hive元数据丢失,Hive无法提供服务 ★★★ 除非确定丢弃Hive所有表信息,否则不要执行该操作 观察服务能否正常启动 使用HDFS文件系统接口或者HBase接口删除或修改Hive表对应的文件 该操作会导致Hive业务数据丢失或被篡改 ★★ 除非确定丢弃这些数据,或者确保该修改操作符合业务需求,否则不要执行该操作 观察Hive数据是否完整 使用HDFS文件系统接口或者HBase接口修改Hive表对应的文件或目录访问权限 该操作可能会导致相关业务场景不可用 ★★★ 请勿执行该操作 观察相关业务操作是否正常 使用HDFS文件系统接口删除或修改文件hdfs:///apps/templeton/hive-3.1.0.tar.gz 该操作可能会导致WebHCat无法正常执行业务 ★★ 请勿执行该操作 观察相关业务操作是否正常 导出表数据覆盖写入本地目录,例如将t1表中数据导出,覆盖到“/opt/dir”路径下: insert overwrite local directory '/opt/dir' select * from t1; 该操作会删除目标目录,如果设置错误,会导致软件或者操作系统无法启动 ★★★★★ 确认需要写入的路径下不要包含任何文件;或者不要使用overwrite关键字 观察目标路径是否有文件丢失 将不同的数据库、表或分区文件指定至相同路径,例如默认仓库路径“/user/hive/warehouse”。 执行创建操作后数据可能会紊乱,如果删除其中一个数据库、表或分区,会导致其他对象数据丢失 ★★★★★ 请勿执行该操作 观察目标路径是否有文件丢失
  • IoTDB高危操作 表12 IoTDB高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 删除数据目录 该操作将会导致业务信息丢失 ★★★ 请勿手动删除数据目录 观察数据目录是否正常 修改数据目录下内容(创建文件、文件夹) 该操作将会导致该节点上的IoTDB的实例故障 ★★★ 请勿手动在数据目录下创建或修改文件及文件夹 观察数据目录是否正常 单独启停基础组件 该操作将会影响服务的一些基础功能导致业务失败 ★★★ 请勿单独启停Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务 观察服务状态是否正常 重启/停止服务 该操作将会导致业务中断 ★★ 确保在必要时重启/停止服务 观察服务是否运行正常
  • Kafka高危操作 表13 Kafka高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 删除Topic 该操作将会删除已有的主题和数据 ★★★ 采用Kerberos认证,保证合法用户具有操作权限,并确保主题名称正确 观察主题是否正常处理 删除数据目录 该操作将会导致业务信息丢失 ★★★ 请勿手动删除数据目录 观察数据目录是否正常 修改数据目录下内容(创建文件、文件夹) 该操作将会导致该节点上的Broker实例故障 ★★★ 请勿手动在数据目录下创建或修改文件及文件夹 观察数据目录是否正常 修改磁盘自适应功能“disk.adapter.enable”参数 该操作会在磁盘使用空间达到阈值时调整Topic数据保存周期,超出保存周期的历史数据可能被清除 ★★★ 若个别Topic不能做保存周期调整,将该Topic配置在“disk.adapter.topic.blacklist”参数中 在KafkaTopic监控页面观察数据的存储周期 修改数据目录“log.dirs”配置 该配置不正确将会导致进程故障 ★★★ 确保所修改或者添加的数据目录为空目录,且权限正确 观察数据目录是否正常 减容Kafka集群 该操作将会导致部分Topic数据副本数量减少,可能会导致Topic无法访问 ★★ 请先做好数据副本转移工作,然后再进行减容操作 观察分区所在备份节点是否都存活,确保数据安全 单独启停基础组件 该操作将会影响服务的一些基础功能导致业务失败 ★★★ 请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务 观察服务状态是否正常 重启/停止服务 该操作将会导致业务中断 ★★ 确保在必要时重启/停止服务 观察服务是否运行正常 修改配置参数 该操作将需要重启服务使得配置生效 ★★ 确保在必要时修改配置 观察服务是否运行正常 删除/修改元数据 修改或者删除ZooKeeper上Kafka的元数据可能导致Topic或者Kafka服务不可用 ★★★ 请勿删除或者修改Kafka在ZooKeeper上保存的元数据信息 观察Topic或者Kafka服务是否可用 修改元数据备份文件 修改Kafka元数据备份文件,并被使用进行Kafka元数据恢复成功后,可能导致Topic或者Kafka服务不可用 ★★★ 请勿修改Kafka元数据备份文件 观察Topic或者Kafka服务是否可用
  • DBService高危操作 表6 DBService高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改DBService密码 修改密码需要重启服务,服务在重启过程中无法访问。 ★★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作。 观察是否有未恢复的告警产生,观察集群的管理维护是否正常 恢复DBService数据 数据恢复后,会丢失从备份时刻到恢复时刻之间的数据。 数据恢复后,依赖DBService的组件可能配置过期,需要重启配置过期的服务。 ★★★★ 恢复前确认操作的必要性,恢复时确保同一时间无其它管理维护操作。 观察是否有未恢复的告警产生,观察集群的管理维护是否正常 DBService主备倒换 倒换DBServer过程中,DBService无法提供服务。 ★★ 操作前确认该操作的必要性,操作时确保同一时间无其它管理维护操作。 无 修改DBService浮动IP配置 需要重启DBService服务使配置生效,服务在重启无法访问。 如果浮动IP已被使用过,将会导致配置失败,DBService启动失败。 ★★★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效。 观察服务能否正常启动
  • HDFS高危操作 表10 HDFS高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改HDFS的NameNode的数据存储目录dfs.namenode.name.dir、DataNode的数据配置目录dfs.datanode.data.dir 导致服务启动异常 ★★★★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效 观察服务能否正常启动 执行hadoop distcp命令时,使用-delete参数 Distcp拷贝时,源集群没有而目的集群存在的文件,会在目的集群删除 ★★ 在使用Distcp的时候,确保是否保留目的集群多余的文件,谨慎使用-delete参数 Distcp数据拷贝后,查看目的的数据是否按照参数配置保留或删除 修改HDFS实例的启动参数GC_OPTS、HADOOP_HEAPSIZE和GC_PROFILE 导致服务启动异常 ★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HADOOP_HEAPSIZE参数值无冲突 观察服务能否正常启动 修改HDFS的副本数目dfs.replication,将默认值由3改为1 导致: 存储可靠性下降,磁盘故障时,会发生数据丢失 NameNode重启失败,HDFS服务不可用 ★★★★ 修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2 观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务 修改Hadoop中各模块的RPC通道的加密方式hadoop.rpc.protection 导致服务故障及业务异常 ★★★★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效 观察HDFS及其他依赖HDFS的服务能否正常启动,并提供服务
  • Manager高危操作 表3 Manager高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改OMS密码 该操作会重启OMS各进程,影响集群的管理维护 ★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常 导入证书 该操作会重启OMS进程和整个集群,影响集群的管理维护和业务 ★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 升级 该操作会重启Manager和整个集群,影响集群的管理维护和业务 分配集群管理权限的用户,需要严格管控,以防范可能的安全风险 ★★★ 修改时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 恢复OMS 该操作会重启Manager和整个集群,影响集群的管理维护和业务 ★★★ 修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 修改IP 该操作会重启Manager和整个集群,影响集群的管理维护和业务 ★★★ 修改时确保同一时间无其它管理维护操作,且修改的IP填写正确无误 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 修改日志级别 如果修改为DEBUG,会导致Manager运行速度明显降低 ★★ 修改前确认操作的必要性,并及时修改回默认设定 无 更换控制节点 该操作会导致部署在该节点上的服务中断,且当该节点同时为管理节点时,更换节点会导致重启OMS各进程,影响集群的管理维护 ★★★ 更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 更换管理节点 该操作会导致部署在该节点上的服务中断,会导致重启OMS各进程,影响集群的管理维护 ★★★★ 更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 重启下层服务时,如果勾选同时重启上层服务 该操作会导致上层服务业务中断,影响集群的管理维护和业务 ★★★★ 操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 修改OLDAP端口 修改该参数时,会重启LdapServer和Kerberos服务和其关联的所有服务,会影响业务运行 ★★★★★ 操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作 无 用户删除supergroup组 删除supergroup组导致相关用户权限变小,影响业务访问 ★★★★★ 修改前确认需要添加的权限,确保用户绑定的supergroup权限删除前,相关权限已经添加,不会对业务造成影响 无 重启服务 重启过程中会中断服务,如果勾选同时重启上层服务会导致依赖该服务的上层服务中断 ★★★ 操作前确认重启的必要性 观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常 修改节点SSH默认端口 修改默认端口(22)将导致创建集群、添加服务/实例、添加主机、重装主机等功能无法正常使用,并且会导致集群健康检查结果中节点互信、omm/ommdba用户密码过期等检查项不准确 ★★★ 执行相关操作前将SSH端口改回默认值 无
  • Flume高危操作 表8 Flume高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 修改Flume实例的启动参数GC_OPTS 导致服务启动异常 ★★ 修改相关配置项时请严格按照提示描述,确保修改后的值有效 观察服务能否正常启动 修改HDFS的副本数目dfs.replication,将默认值由3改为1 导致: 存储可靠性下降,磁盘故障时,会发生数据丢失 NameNode重启失败,HDFS服务不可用 ★★★★ 修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2 观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务
  • CDL高危操作 表4 CDL高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 单独启停基础组件 该操作将会影响服务的一些基础功能导致业务失败 ★★★ 请勿单独启停Kafka/DBService/ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务 观察服务状态是否正常 重启/停止服务 该操作将会导致业务中断 ★★ 确保在必要时重启/停止服务 观察服务是否运行正常
  • ClickHouse高危操作 表5 ClickHouse高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 删除数据目录 该操作将会导致业务信息丢失 ★★★ 请勿手动删除数据目录 观察数据目录是否正常 缩容ClickHouseServer实例 该操作需要关注同分片中的ClickHouseServer实例节点需要同时退服缩容,否则会造成逻辑集群拓扑信息错乱;该操作执行前需检查逻辑集群内各节点的数据库和数据表信息,进行缩容预分析,保证缩容退服过程中数据迁移成功,避免数据丢失 ★★★★★ 进行缩容操作前,提前收集信息进行ClickHouse逻辑集群及实例节点状态判断 观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量 扩容ClickHouseServer实例 该操作需要关注新扩容节点是否需要创建老节点上同名的数据库或数据表,否则会造成后续数据迁移、数据均衡以及缩容退服失败 ★★★★★ 进行扩容操作前,确认新扩容ClickHouseServer实例作用和目的,是否需要同步创建相关数据库和数据表 观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量 退服ClickHouseServer实例 该操作需要关注同分片中的ClickHouseServer实例节点需要同时退服,否则会造成逻辑集群拓扑信息错乱;该操作执行前需检查逻辑集群内各节点的数据库和数据表信息,进行预分析,保证退服过程中数据迁移成功,避免数据丢失 ★★★★★ 进行退服操作前,提前收集信息进行Clickhouse逻辑集群及实例节点状态判断 观察ClickHouse逻辑集群拓扑信息,各ClickHouseServer中数据库和数据表信息,以及数据量 入服ClickHouseServer实例 该操作需要关注入服时必须选择原有分片中的所有节点入服,否则会造成逻辑集群拓扑信息错乱 ★★★★★ 进行入服操作前,对于待入服节点的分片归属信息需要确认 观察ClickHouse逻辑集群拓扑信息 修改数据目录下内容(创建文件、文件夹) 该操作将会导致该节点上的ClickHouse的实例故障 ★★★ 请勿手动在数据目录下创建或修改文件及文件夹 观察数据目录是否正常 单独启停基础组件 该操作将会影响服务的一些基础功能导致业务失败 ★★★ 请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件,启停基础组件请勾选关联服务 观察服务状态是否正常 重启/停止服务 该操作将会导致业务中断 ★★ 确保在必要时重启/停止服务 观察服务是否运行正常
  • 集群高危操作 表2 集群高危操作 操作名称 操作风险 风险等级 规避措施 重大操作观察项目 随意修改omm用户下的文件目录或者文件权限 该操作会导致MRS集群服务不可用 ★★★★★ 请勿执行该操作 观察MRS集群服务是否可用 绑定弹性公网IP 该操作会将集群的manager所在的master节点暴露在公网,会增大来自互联网的网络攻击风险可能性 ★★★★★ 请确认绑定的弹性公网IP为可信任的公网访问IP 无 开放集群22端口安全组规则 该操作会增大用户利用22进行漏洞攻击的风险 ★★★★★ 针对开放的22端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。 无 删除集群或删除集群数据 该操作会导致数据丢失 ★★★★★ 删除前请务必再次确认该操作的必要性,同时要保证数据已完成备份 无 缩容集群 该操作会导致数据丢失 ★★★★★ 缩容前请务必再次确认该操作的必要性,同时要保证数据已完成备份 无 卸载磁盘或格式化数据盘 该操作会导致数据丢失 ★★★★★ 操作前请请务必再次确认该操作的必要性,同时要保证数据已完成备份 无
  • 禁用操作 表1中描述了在集群操作与维护阶段,观察进行日常操作时应注意的禁用操作。 表1 禁用操作 类别 操作风险 严禁删除ZooKeeper相关数据目录 ClickHouse/HDFS/Yarn/HBase/Hive等很多组件都依赖于ZooKeeper,在ZooKeeper中保存元数据信息。删除ZooKeeper中相关数据目录将会影响相关组件的正常运行。 严禁JDBCServer主备节点频繁倒换 频繁主备倒换将导致业务中断。 严禁删除Phoenix系统表或系统表数据(SYSTEM.CATALOG、SYSTEM.STATS、SYSTEM.SEQUENCE、SYSTEM. FUNCTION) 删除系统表将导致无法正常进行业务操作。 严禁手动修改Hive元数据库的数据(hivemeta数据库) 修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。 禁止对Hive的元数据表手动进行insert和update操作 修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。 严禁修改Hive私有文件目录hdfs:///tmp/hive-scratch的权限 修改该目录权限可能会导致Hive服务不可用。 严禁修改Kafka配置文件中broker.id 修改Kafka配置文件中broker.id将会导致该节点数据失效。 严禁修改节点主机名 主机名修改后会导致该主机上相关实例和上层组件无法正常提供服务,且无法修复。 禁止重装节点OS 该操作会导致MRS集群进入异常状态,影响MRS集群使用。 禁止使用私有镜像 该操作会导致MRS集群进入异常状态,影响MRS集群使用。
  • 通过专线访问MRS集群 登录MRS管理控制台。 单击集群名称进入集群详情页。 在集群详情页面的“概览”页签,单击“集群管理页面”右侧的“前往 Manager”。 “访问方式”选择“专线访问”,并勾选“我确认已打通本地与浮动IP的网络,可使用专线直接访问MRS Manager。”。 浮动IP为MRS为您访问MRS Manager页面自动分配的IP地址,使用专线访问MRS Manager之前您确保云专线服务已打通本地数据中心到线上VPC的连接通道。 单击“确定”,进入MRS Manager登录页面,用户名使用“admin”,密码为创建集群时设置的admin密码。
  • 切换MRS Manager访问方式 为了便于用户操作,浏览器缓存会记录用户所选择的访问Manager的方式,如需切换访问Manager方式,参考如下步骤操作。 登录MRS管理控制台。 单击集群名称进入集群详情页。 在集群详情页面的“概览”页签,单击“集群管理页面”右侧的按钮。 在弹出页面重新选择“访问方式”即可。 若由“EIP访问”切换为“专线访问”,请在专线网路互通的前提下,在弹出页面的“访问方式”选择“专线访问”并勾选“我确认已打通本地与浮动IP的网络,可使用专线直接访问MRS Manager。”后单击“确定”。 若由“专线访问”切换为“EIP访问”,在弹出页面的“访问方式”选择“EIP访问”并参考通过弹性公网IP访问Manager配置EIP。若集群已配置过公网IP,直接单击“确定”以EIP方式访问Manager。
  • 前提条件 检查OMS和LdapServer备份文件是否是同一时间点备份的数据。 检查OMS资源状态是否正常,检查LdapServer实例状态是否正常。如果不正常,不能执行恢复操作。 检查集群主机和服务的状态是否正常。如果不正常,不能执行恢复操作。 检查恢复数据时集群主机拓扑结构与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份。 检查恢复数据时集群中已添加的服务与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份 检查DBService主备实例状态是否正常。如果不正常,不能执行恢复操作。 停止依赖MRS集群运行的上层业务应用。 在MRS Manager停止所有待恢复数据的NameNode角色实例,其他的HDFS角色实例必须保持正常运行,恢复数据后重启NameNode。NameNode角色实例重启前无法访问。 检查NameNode备份文件是否保存在主管理节点“数据存放路径/LocalBackup/”。
  • 原理 任务 在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、Hive和NameNode数据时,无法访问集群。 每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。备份任务提供全量备份或增量备份的策略,增量备份策略支持HDFS和Hive备份任务,OMS、LdapServer、DBService和NameNode备份任务默认只应用全量备份策略。 任务运行规则: 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。 周期任务锁定时无法自动执行,需要手动解锁。 OMS、LdapServer、DBService和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。 用户在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。系统默认创建了一个间隔为24小时的周期备份任务“default”,支持全量备份OMS、LdapServer、DBService和NameNode数据到Linux本地磁盘。
  • 规格 表2 备份恢复特性规格 项目 规格 备份或恢复任务最大数量(个) 100 同时运行的任务数量(个) 1 等待运行的任务最大数量(个) 199 Linux本地磁盘最大备份文件大小(GB) 600 表3 “default”任务规格 项目 OMS LdapServer DBService NameNode 备份周期 1小时 最大备份数 2个 单个备份文件最大大小 10MB 20MB 100MB 1.5GB 最大占用磁盘大小 20MB 40MB 200MB 3GB 备份数据保存位置 主备管理节点“数据存放路径/LocalBackup/” “default”任务保存的备份数据,请用户根据企业运维要求,定期转移并保存到集群外部。
  • 操作场景 在用户意外修改删除、数据需要找回,对元数据组件进行重大操作(如升级、重大数据调整等)后系统数据出现异常或未达到预期结果,模块全部故障完全无法使用,或者迁移数据到新集群的场景中,需要对元数据进行恢复操作。 该任务指导用户通过MRS Manager创建恢复元数据任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的元数据。 必须使用同一时间点的OMS和LdapServer备份数据进行恢复,否则可能造成业务和操作失败。 MRS集群默认使用DBService保存Hive的元数据。
  • 概述 MRS Manager提供对系统内的用户数据及系统数据的备份恢复能力,备份功能按组件提供,支持备份管理系统Manager的数据(需要同时备份OMS和LdapServer)、Hive用户数据、DBService中保存的组件元数据和HDFS元数据备份。 备份恢复任务的使用场景如下: 用于日常备份,确保系统及组件的数据安全。 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。 表1 根据业务需要备份元数据 备份类型 备份内容 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LdapServer 备份用户信息,包括用户名、密码、密钥、密码策略、组信息。 DBService 备份DBService管理的组件(Hive)的元数据。 NameNode 备份HDFS元数据。
  • 操作步骤 在MRS Manager,单击“租户管理”。 在左侧租户列表,将光标移动到需要添加子租户的租户节点上,单击“添加子租户”,打开添加子租户的配置页面,参见以下表格内容为租户配置属性。 表1 子租户参数一览表 参数名 描述 “父租户” 显示上级父租户的名称。 “名称” 指定当前租户的名称,长度为1到20,可包含数字、字母和下划线。 “租户类型” 可选参数值为“叶子租户”和“非叶子租户”,当选中“叶子租户”时表示当前租户为叶子租户,无法再添加子租户。当选中“非叶子租户”时表示当前租户可以再添加子租户。 “动态资源” 为当前租户选择动态计算资源。系统将自动在Yarn父租户队列中以子租户名称创建任务队列。动态资源不选择“Yarn”时,系统不会自动创建任务队列。如果父租户未选择动态资源,子租户也无法使用动态资源。 “默认资源池容量 (%)” 配置当前租户使用的资源百分比,基数为父租户的资源总量。 “默认资源池最大容量 (%)” 配置当前租户使用的最大计算资源百分比,基数为父租户的资源总量。 “储存资源” 为当前租户选择存储资源。系统将自动在HDFS父租户目录中,以子租户名称创建文件夹。存储资源不选择“HDFS”时,系统不会在HDFS中创建存储目录。如果父租户未选择存储资源,子租户也无法使用存储资源。 “存储空间配额 (MB)” 配置当前租户使用的HDFS存储空间配额。最小值值为“1”,最大值为父租户的全部存储配额。单位为MB。此参数值表示租户可使用的HDFS存储空间上限,不代表一定使用了这么多空间。如果参数值大于HDFS物理磁盘大小,实际最多使用全部的HDFS物理磁盘空间。若此配额大于父租户的配额,实际存储量受父租户配额影响。 说明: 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间球所有副本文件在HDFS中占用磁盘空间大小总和。例如“父租户中分配资源”设置为“500”,则实际只能保存约500/2=250MB大小的文件。 “存储路径” 配置租户在HDFS中的存储目录。系统默认将自动在父租户目录中以子租户名称创建文件夹。例如子租户“ta1s”,父目录为“tenant/ta1”,系统默认自动配置此参数值为“tenant/ta1/ta1s”,最终子租户的存储目录为“/tenant/ta1/ta1s”。支持在父目录中自定义存储路径。存储路径的父目录必需是父租户的存储目录。 “服务” 配置当前租户关联使用的其他服务资源,支持HBase。单击“关联服务”,在“服务”选择“HBase”。在“关联类型”选择“独占”表示独占服务资源,选择“共享”表示共享服务资源。 “描述” 配置当前租户的描述信息。 单击“确定”保存,完成子租户添加。 保存配置需要等待一段时间,界面右上角弹出提示“租户创建成功。”,租户成功添加。 创建租户时将自动创建租户对应的角色、计算资源和存储资源。 新角色包含计算资源和存储资源的权限。此角色及其权限由系统自动控制,不支持通过“角色管理”进行手动管理。 使用此租户时,请创建一个系统用户,并分配租户对应的角色。具体操作请参见创建用户。
  • 操作场景 为了确保元数据信息安全,或者用户需要对元数据功能进行重大操作(如扩容缩容、安装补丁包、升级或迁移等)前后,需要对元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。元数据包含OMS数据、LdapServer数据、DBService数据和NameNode数据。备份Manager数据包含同时备份OMS数据和LdapServer数据。 默认情况下,元数据备份由“default”任务支持。该任务指导用户通过MRS Manager创建备份任务并备份元数据。支持创建任务自动或手动备份数据。
  • 操作步骤 在MRS Manager,单击“租户管理”。 单击“资源池”页签。 单击“添加资源池”。 在“添加资源池”设置资源池的属性。 “名称”:填写资源池的名称。不支持创建名称为“Default”的资源池。 资源池的名称,长度为1到20位,可包含数字、字母和下划线,且不能以下划线开头。 “可用主机”:在界面左边主机列表,选择指定的主机名称,单击,将选中的主机加入资源池。只支持选择本集群中的主机。资源池中的主机列表可以为空。 单击“确定”保存。 完成资源池创建后,用户可以在资源池的列表中查看资源池的“名称”、“成员”、“类型”、“虚拟核数”与“内存”。已加入自定义资源池的主机,不再是“Default”资源池的成员。
  • 操作步骤 查看租户目录 在MRS Manager,单击“租户管理”。 在左侧租户列表,单击目标的租户。 单击“资源”页签。 查看“HDFS存储”表格。 指定租户目录的“文件目录数上限”列表示文件和目录数量配额。 指定租户目录的“存储空间配额 (MB)”列表示租户目录的存储空间大小。 添加租户目录 在MRS Manager,单击“租户管理”。 在左侧租户列表,单击需要添加HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,单击“添加目录”。 “父目录”选择一个父租户的存储目录。 该参数仅适用于子租户。如果父租户有多个目录,请选择其中任何一个。 “路径”填写租户目录的路径。 如果当前租户不是子租户,新路径将在HDFS的根目录下创建。 如果当前租户是一个子租户,新路径将在指定的目录下创建。 完整的HDFS存储目录最多包含1023个字符。HDFS目录名称包含数字、大小写字母、空格和下划线。空格只能在HDFS目录名称的中间使用。 “文件\目录数上限”填写文件和目录数量配额。 “文件\目录数上限”为可选参数,取值范围从1到9223372036854775806。 “存储空间配额 (MB)”填写租户目录的存储空间大小。 “存储空间配额 (MB)”的取值范围从1到8796093022208。 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间球所有副本文件在HDFS中占用磁盘空间大小总和。例如“存储空间配额”设置为“500”,则实际只能保存约500/2=250MB大小的文件。 单击“确定”完成租户目录添加,系统将在HDFS根目录下创建租户的目录。 修改租户目录 在MRS Manager,单击“租户管理”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,指定租户目录的“操作”列,单击“修改”。 “文件\目录数上限”填写文件和目录数量配额。 “文件\目录数上限”为可选参数,取值范围从1到9223372036854775806。 “存储空间配额”填写租户目录的存储空间大小。 “存储空间配额”的取值范围从1到8796093022208。 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间球所有副本文件在HDFS中占用磁盘空间大小总和。例如“存储空间配额”设置为“500”,则实际只能保存约500/2=250MB大小的文件。 单击“确定”完成租户目录修改。 删除租户目录 在MRS Manager,单击“租户管理”。 在左侧租户列表,单击需要删除HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,指定租户目录的“操作”列,单击“删除”。 创建租户时设置的默认HDFS存储目录不支持删除,仅支持删除新添加的HDFS存储目录。 单击“确定”完成租户目录删除。
  • 操作步骤 在MRS Manager,单击“租户管理”。 单击“动态资源计划”页签。 在“资源池”选择指定的资源池。 “可用资源配额”:表示每个资源池默认所有资源都可分配给队列。 在“资源分配”列表指定队列的“操作”列,单击“修改”。 在“修改资源分配”窗口设置任务队列在此资源池中的资源容量策略。 “资源容量 (%)”:表示当前租户计算资源使用的资源百分比。 “最大资源容量 (%)”:表示当前租户计算资源使用的最大资源百分比。 单击“确定”保存配置。
  • 操作步骤 在MRS Manager,单击“租户管理”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看“基本信息”左侧的圆圈,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”或者“HDFS存储”左侧的圆圈,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击“恢复租户数据”。 在“恢复租户数据”窗口,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
  • 原理 MRS集群提供多租户的功能,支持层级式的租户模型,支持动态添加和删除租户,实现资源的隔离,可以对租户的计算资源和存储资源进行动态配置和管理。 计算资源指租户Yarn任务队列资源,可以修改任务队列的配额,并查看任务队列的使用状态和使用统计。 存储资源目前支持HDFS存储,可以添加删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额。 MRS Manager作为MRS集群的统一租户管理平台,可以为企业提供成熟的多租户管理模型,实现集中式的租户和业务管理。租户可以在界面上根据业务需要,在集群中创建租户、管理租户。 创建租户时将自动创建租户对应的角色、计算资源和存储资源。默认情况下,新的计算资源和存储资源的全部权限将分配给租户的角色。 默认情况下,查看当前租户的资源、在当前租户中添加子租户并管理子租户资源的权限将分配给租户的角色。 修改租户的计算资源或存储资源,对应的角色关联权限将自动更新。 MRS Manager中最多支持512个租户。系统默认创建的租户包含“default”。和默认租户同处于最上层的租户,可以统称为一级租户。
  • 操作步骤 在MRS Manager,单击“租户管理”。 单击“添加租户”,打开添加租户的配置页面,参见以下表格内容为租户配置属性。 表1 租户参数一览表 参数名 描述 “名称” 指定当前租户的名称,长度为1到20,可包含数字、字母和下划线。 “租户类型” 可选参数值为“叶子租户”和“非叶子租户”。当选中“叶子租户”时表示当前租户为叶子租户,无法再添加子租户。当选中“非叶子租户”时表示当前租户可以再添加子租户。 “动态资源” 为当前租户选择动态计算资源。系统将自动在Yarn中以租户名称创建任务队列。动态资源不选择“Yarn”时,系统不会自动创建任务队列。 “默认资源池容量 (%)” 配置当前租户在“default”资源池中使用的计算资源百分比。 “默认资源池最大容量 (%)” 配置当前租户在“default”资源池中使用的最大计算资源百分比。 “储存资源” 为当前租户选择存储资源。系统将自动在“/tenant”目录中以租户名称创建文件夹。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。存储资源不选择“HDFS”时,系统不会在HDFS中创建存储目录。 “存储空间配额 (MB)” 配置当前租户使用的HDFS存储空间配额。取值范围为“1”到“8796093022208”。单位为MB。此参数值表示租户可使用的HDFS存储空间上限,不代表一定使用了这么多空间。如果参数值大于HDFS物理磁盘大小,实际最多使用全部的HDFS物理磁盘空间。 说明: 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间表示所有副本文件在HDFS中占用的磁盘空间大小总和。例如“存储空间配额”设置为“500”,则实际只能保存约500/2=250MB大小的文件。 “存储路径” 配置租户在HDFS中的存储目录。系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”,默认HDFS存储目录为“tenant/ta1”。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。 “服务” 配置当前租户关联使用的其他服务资源,支持HBase。单击“关联服务”,在“服务”选择“HBase”。在“关联类型”选择“独占”表示独占服务资源,选择“共享”表示共享服务资源。 “描述” 配置当前租户的描述信息。 单击“确定”保存,完成租户添加。 保存配置需要等待一段时间,界面右上角弹出提示“租户创建成功。”,租户成功添加。 创建租户时将自动创建租户对应的角色、计算资源和存储资源。 新角色包含计算资源和存储资源的权限。此角色及其权限由系统自动控制,不支持通过“角色管理”进行手动管理。 使用此租户时,请创建一个系统用户,并分配Manager_tenant角色以及租户对应的角色。具体操作请参见创建用户。
  • 操作步骤 在MRS Manager,单击“租户管理”。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示“删除租户”对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“确定”保存,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 资源池 YARN任务队列支持一种调度策略,称为标签调度(Label Based Scheduling)。通过此策略,YARN任务队列可以关联带有特定节点标签(Node Label)的NodeManager,使YARN任务在指定的节点运行,实现任务的调度与使用特定硬件资源的需求。例如,需要使用大量内存的YARN任务,可以通过标签关联具有大量内存的节点上运行,避免性能不足影响业务。 在MRS集群中,租户从逻辑上对YARN集群的节点进行分区,使多个NodeManager形成一个资源池。YARN任务队列通过配置队列容量策略,与指定的资源池进行关联,可以更有效地使用资源池中的资源,且互不影响。 MRS Manager中最多支持50个资源池。系统默认包含一个“Default”资源池。
  • 操作场景 MRS Manager支持通过静态服务资源池对没有运行在YARN上的服务资源进行管理和隔离。支持动态地管理HDFS和YARN在部署节点可使用的CPU、I/O和内存总量。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 用户可以在MRS Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘I/O读速率 服务总体磁盘I/O写速率 服务总体内存使用大小
共100000条