华为云用户手册

  • 操作步骤 在MRS Manager,单击“系统设置”,在“资源管理”区域单击“静态服务池”。 单击“状态”。 查看系统资源调整基数。 “系统资源调整基数”表示集群中每个节点可以被集群服务使用的最大资源。如果节点只有一个服务,则表示此服务独占节点可用资源。如果节点有多个服务,则表示所有服务共同使用节点可用资源。 “CPU(%)”表示节点中服务可使用的最大CPU。 “Memory(%)”表示节点中服务可使用的最大内存。 查看集群服务资源使用状态。(针对MRS 3.x之前版本,此处为图表区域。) 在图表区域的服务选择框中选择“所有服务”,则“图表”中会显示服务池所有服务的资源使用状态。 “生效的配置组”表示集群服务当前使用的资源控制配置组。默认情况下每天所有时间均使用“default”配置组,表示集群服务可以使用节点全部CPU,以及70%的内存。 查看单个服务资源使用状态。 在图表区域的服务选择框中选择指定服务,“图表”中会显示服务池此服务的资源使用状态。 用户可以选择页面自动刷新间隔的设置。 支持三种参数值: “每30秒刷新一次”:刷新间隔30秒。 “每60秒刷新一次”:刷新间隔60秒。 “停止刷新”:停止刷新。 在“时间区间”选择需要查看服务资源的时间段。可供选择的选项如下: 实时 最近3小时 最近6小时 最近24小时 最近一周 最近一个月 最近三个月 最近六个月 自定义:选择自定义时,在时间范围内自行选择需要查看的时间。 单击“查看”可以查看相应时间区间的服务资源数据。 自定义服务资源报表。 单击“定制”,勾选需要显示的服务源指标。 服务总体磁盘I/O读速率 服务总体内存使用大小 服务总体磁盘I/O写速率 服务总体CPU使用率 单击“确定”保存并显示所选指标。 单击“清除”可批量取消全部选中的指标项。 导出监控指标报表。 单击“导出”,Manager将生成指定时间范围内、已勾选的服务资源指标报表文件,请选择一个位置保存,并妥善保管该文件。 如果需要查看指定时间范围的监控指标对应的分布曲线图,请单击“查看”,界面将显示用户自定义时间范围内选定指标的分布曲线图。
  • 服务健康状态 指标项名称:服务状态 指标项含义:检查ZooKeeper服务状态是否正常。如果状态不正常,则认为不健康。 恢复指导:如果该指标项异常,建议检查KrbServer、LdapServer两个服务的健康状态是否为故障并进行处理。然后登录ZooKeeper客户端,确认ZooKeeper是否无法写入数据,根据错误提示排查ZooKeeper写数据失败的原因。最后参告警ALM-13000进行处理。
  • 工作节点数 指标项名称:Supervisor数 指标项含义:检查集群中可用的Supervisor数,若集群中可用的Supervisor数小于1,则认为不健康。 恢复指导:如果该指标项异常,进入Streaming服务实例页面,单击不可用Supervisor实例的“主机名”,在“概要信息”中查看主机的健康状态,若为“良好”,则参见“ALM-12007 进程故障”告警进行处理;若不为“良好”,则参见“ALM-12006 节点故障”告警进行处理。
  • MRS自定义策略样例 示例1:授权用户仅有创建MRS集群的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create", "ecs:*:*", "bms:*:*", "evs:*:*", "vpc:*:*", "smn:*:*" ] } ]} 示例2:授权用户调整MRS集群 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:resize" ] } ] } 示例3:授权用户创建集群、创建并执行作业、删除单个作业,但不允许用户删除集群的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create", "mrs:job:submit", "mrs:job:delete" ] }, { "Effect": "Deny", "Action": [ "mrs:cluster:delete" ] } ]} 示例4:授权用户最小权限,创建ECS规格的集群 创建集群时如果使用密钥对,增加权限:ecs:serverKeypairs:get和ecs:serverKeypairs:list 创集群时使用数据盘加密,增加权限:kms:cmk:list 创建集群时开启告警功能,增加权限:mrs:alarm:subscribe 创建集群时使用外置数据源,增加权限:rds:instance:list { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:cloudServers:updateMetadata", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get", "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:cloudServers:list", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:get", "ecs:cloudServers:create" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:serverFlavors:get" ] } ]} 示例5:授权用户最小权限,创建BMS规格的集群 创建集群时如果使用密钥对,增加权限:ecs:serverKeypairs:get和ecs:serverKeypairs:list 创集群时使用数据盘加密,增加权限:kms:cmk:list 创建集群时开启告警功能,增加权限:mrs:alarm:subscribe 创建集群时使用外置数据源,增加权限:rds:instance:list { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:create", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:servers:get", "bms:servers:list", "bms:serverQuotas:get", "bms:servers:updateMetadata", "bms:serverFlavors:get" ] } ]} 示例6:授权用户最小权限,创建ECS和BMS混合集群 创建集群时如果使用密钥对,增加权限:ecs:serverKeypairs:get和ecs:serverKeypairs:list 创集群时使用数据盘加密,增加权限:kms:cmk:list 创建集群时开启告警功能,增加权限:mrs:alarm:subscribe 创建集群时使用外置数据源,增加权限:rds:instance:list { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "mrs:cluster:create" ] }, { "Effect": "Allow", "Action": [ "ecs:cloudServers:updateMetadata", "ecs:cloudServerFlavors:get", "ecs:cloudServerQuotas:get", "ecs:servers:list", "ecs:servers:get", "ecs:cloudServers:delete", "ecs:cloudServers:list", "ecs:serverInterfaces:get", "ecs:serverGroups:manage", "ecs:servers:setMetadata", "ecs:cloudServers:get", "ecs:cloudServers:create" ] }, { "Effect": "Allow", "Action": [ "vpc:securityGroups:create", "vpc:securityGroupRules:delete", "vpc:vpcs:create", "vpc:ports:create", "vpc:securityGroups:get", "vpc:subnets:create", "vpc:privateIps:delete", "vpc:quotas:list", "vpc:networks:get", "vpc:publicIps:list", "vpc:securityGroups:delete", "vpc:securityGroupRules:create", "vpc:privateIps:create", "vpc:ports:get", "vpc:ports:delete", "vpc:publicIps:update", "vpc:subnets:get", "vpc:publicIps:get", "vpc:ports:update", "vpc:vpcs:list" ] }, { "Effect": "Allow", "Action": [ "evs:quotas:get", "evs:types:get" ] }, { "Effect": "Allow", "Action": [ "bms:servers:get", "bms:servers:list", "bms:serverQuotas:get", "bms:servers:updateMetadata", "bms:serverFlavors:get" ] } ]}
  • 操作步骤 在集群详情页,单击“租户管理”。 图2 租户管理 MRS 3.x及之后版本请参考使用说明。 在左侧租户列表,将光标移动到需要删除的租户节点上,单击“删除”。 界面显示删除租户对话框。根据业务需求,需要保留租户已有的数据时请同时勾选“保留该租户的数据”,否则将自动删除租户对应的存储空间。 单击“是”,删除租户。 保存配置需要等待一段时间,租户成功删除。租户对应的角色、存储空间将删除。 租户删除后,Yarn中对应的租户任务队列不会被删除。 删除父租户时选择不保留数据,如果存在子租户且子租户使用了存储资源,则子租户的数据也会被删除。
  • 操作步骤 在MRS Manager,单击“系统设置”。 在“权限配置”区域,单击“用户管理”。 在用户列表上方,单击“添加用户”。 根据界面提示配置参数,填写“用户名”。 不支持创建两个名称相同但大小写不同的用户。例如已创建用户“User1”,无法创建用户“user1”。 使用已创建的用户时,请输入和用户名完全一样的大小写字符。 “用户名”为必选参数,字符长度为3到20,可以包含数字、字母和下划线。 “root”、“omm”和“ommdba”为系统保留用户,请选择其他用户名。 设置“用户类型”,可选值包括“人机”和“机机”。 “人机”用户:用于在MRS Manager的操作运维场景,以及在组件客户端操作的场景。选择该值需同时填写“密码”和“确认密码”。 “机机”用户:用于MRS应用开发的场景。选择该值用户密码随机生成,无需填写。 在“用户组”,单击“选择添加的用户组”,选择对应用户组将用户添加进去。 如果用户组添加了角色,则用户可获得对应角色中的权限。 为新用户分配Hive的权限,请将用户加入hive组。 如果用户需要管理租户资源,用户组必须分配了Manager_tenant角色以及租户对应的角色。 在“主组”选择一个组作为用户创建目录和文件时的主组。下拉列表包含“用户组”中勾选的全部组。 根据业务实际需要在“分配角色权限”,单击“选择并绑定角色”为用户添加角色。 创建用户时,如果用户从用户组获得的权限还不满足业务需要,则可以再分配其他已创建的角色。为新用户分配角色授权,最长可能需要3分钟时间生效。 创建用户时添加角色可细化用户的权限。 没有为新用户分配角色时,此用户可以访问HDFS、HBase、Yarn、Spark和Hue的WebUI。 根据业务实际需要“描述”。 “描述”为可选参数。 单击“确定”完成用户创建。 第一次在MRS集群中使用新创建的用户,例如登录Manager或者使用集群客户端,需要修改密码,具体请参见《修改操作用户密码》。
  • 集群(未启用Kerberos认证)安全配置建议 Hadoop社区版本提供两种认证方式Kerberos认证(安全模式)和Simple认证(普通模式),在创建集群时,MRS支持配置是否启用Kerberos认证。 在安全模式下MRS集群统一使用Kerberos认证协议进行安全认证。 而普通模式下MRS集群各组件使用原生开源的认证机制,一般为Simple认证方式。而Simple认证,在客户端连接服务端的过程中,默认以客户端执行用户(例如操作系统用户“root”等)自动完成认证,管理员或业务用户不显示感知认证。而且客户端在运行时,甚至可以通过注入UserGroupInformation来伪装成任意用户(包括superuser),集群资源管理接口和数据控制接口在服务端无认证和鉴权控制,很容易被黑客利用和攻击。 所以在普通模式下,必须通过严格限定网络访问权限来保障集群的安全。操作建议如下: 尽量将业务应用程序部署在同VPC和子网下的ECS中,避免通过外网访问MRS集群。 配置严格限制访问范围的安全组规则,禁止对MRS集群的入方向端口配置允许Any或0.0.0.0的访问规则。 如需从集群外访问集群内组件原生页面,请参考创建连接MRS集群的SSH隧道并配置浏览器进行配置。 父主题: 安全性说明
  • 相关任务 修改用户组 在MRS Manager,单击“系统设置”。 在“权限配置”区域,单击“用户组管理”。 在要修改用户组所在的行,单击“修改”,修改用户组信息。 为用户组修改分配的角色权限,最长可能需要3分钟时间生效。 单击“确定”完成修改操作。 删除用户组 在MRS Manager,单击“系统设置”。 在“权限配置”区域,单击“用户组管理”。 在要删除用户组所在的行,单击“删除”。 单击“确定”完成删除操作。
  • 场景介绍 MRS集群默认在集群的Master节点或Core节点创建并托管了不同组件的Web站点,用户可以通过这些Web站点查看组件相关信息。 访问开源组件Web站点步骤: 配置访问方式。 MRS提供如下访问开源组件Web站点的方式: 通过弹性公网IP访问:推荐使用该方式,为集群绑定弹性公网IP,简便易操作。 通过Windows弹性云服务器访问:需要创建单独的ECS并进行相关配置。 创建连接MRS集群的SSH隧道并配置浏览器:当用户和MRS集群处于不同的网络中时可以使用该方式访问。 访问站点。请参考表1的地址进行访问。
  • 引导操作简介 用户可以通过引导操作来完成安装其他第三方软件,修改集群运行环境等自定义操作。引导操作可以在集群组件首次启动前/后在指定的节点上执行脚本。已运行的集群组件添加的引导操作,只能通过手动方式在节点上执行第三方组件的安装脚本进行安装。 如果集群扩容,选择执行引导操作,则引导操作也会以相同方式在新增节点上执行。如果集群开启弹性伸缩功能,可以在配置资源计划的同时添加自动化脚本,则自动化脚本会在弹性伸缩的节点上执行,实现用户自定义操作。 MRS 3.x之前版本会使用root用户执行您指定的脚本,脚本内部您可以通过su - XXX命令切换用户。 MRS 3.x及之后版本默认使用omm用户执行您指定的脚本,脚本内部您可以通过su - XXX命令切换用户。 MRS 3.x之前版本:引导操作脚本以root身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。 MRS 3.x及之后版本:引导操作脚本以omm身份执行,使用不当可能会对集群可用性造成影响,请谨慎操作。 MRS通过引导操作脚本返回码来判断结果,如果返回零,则代表脚本执行成功,非零代表执行失败。一个节点上执行某个引导脚本失败,则会导致相应引导脚本失败,您可以通过“失败后操作”来选择是否继续执行后续脚本。举例1:创建集群指定所有脚本的“失败后操作”都选择“继续”,则不管这些脚本实际执行成功或失败,都会全部执行,并完成启动流程。举例2:如果一个脚本执行失败,且“失败后操作”选择“终止”,则不会执行后续脚本,集群创建或扩容也随之失败。 您最多可以添加18个引导操作,它们会按照您指定的顺序在集群组件启动前(或后)执行。组件启动前(或后)执行的引导操作,必须在60分钟内完成,否则会引起集群创建或扩容失败。 父主题: 引导操作
  • 后续操作 配置跨集群互信后,因在MRS Manager修改了服务配置参数并重启了服务,请重新准备好客户端配置文件并更新客户端。 场景1: A集群和B集群(对端集群、互信集群)是同类型集群,例如均是分析集群或者流式集群,请参见更新客户端(3.x之前版本)分别更新客户端配置文件。 更新A集群的客户端配置文件。 更新B集群的客户端配置文件。 场景2: A集群和B集群(对端集群、互信集群)是不同类型集群,请执行如下步骤分别更新对端集群的配置文件到本端集群和本端集群自身的配置文件。 将A集群的客户端配置文件更新到B集群上。 将B集群的客户端配置文件更新到A集群上。 更新A集群的客户端配置文件。 更新B集群的客户端配置文件。 登录MRS Manager(A集群)。 单击“服务管理”,然后单击“下载客户端”。 “客户端类型”选择“仅配置文件”。 “下载路径”选择“远端主机”。 将“主机IP”设置为B集群的主Master节点IP地址,设置“主机端口”为“22”,并将“存放路径”设置为“/tmp”。 如果使用SSH登录B集群的默认端口“22”被修改,请将“主机端口”设置为新端口。 “存放路径”最多可以包含256个字符。 “登录用户”设置为“root”。 如果使用其他用户,请确保该用户对保存目录拥有读取、写入和执行权限。 在“登录方式”选择“密码”或“SSH私钥”。 密码:输入创建集群时设置的root用户密码。 SSH私钥:选择并上传创建集群时使用的密钥文件。 单击“确定”开始生成客户端文件。 若界面显示以下提示信息表示客户端包已经成功保存。单击“关闭”。 下载客户端文件到远端主机成功。 若界面显示以下提示信息,请检查用户名密码及远端主机的安全组配置,确保用户名密码正确,及远端主机的安全组已增加SSH(22)端口的入方向规则。然后从2执行重新下载客户端。 连接到服务器失败,请检查网络连接或参数设置。 使用VNC方式,登录弹性云服务器(B集群)。参见登录弹性云服务器(VNC方式) 。 所有镜像均支持Cloud-init特性。Cloud-init预配置的用户名“root”,密码为创建集群时设置的密码。 执行以下命令切换到客户端目录,例如“/opt/Bigdata/client”: cd /opt/Bigdata/client 执行以下命令,将A集群的客户端配置更新到B集群上: sh refreshConfig.sh 客户端安装目录 客户端配置文件压缩包完整路径 例如,执行命令: sh refreshConfig.sh /opt/Bigdata/client /tmp/MRS_Services_Client.tar 界面显示以下信息表示配置刷新更新成功: ReFresh components client config is complete.Succeed to refresh components client config. 步骤1~11的操作也可以参考更新客户端(3.x之前版本)页面的方法二操作。 参见1~11,将B集群的客户端配置文件更新到A集群上。 参见更新客户端(3.x之前版本),分别更新本端集群自身的客户端配置文件: 更新A集群的客户端配置文件。 更新B集群的客户端配置文件。
  • 操作场景 如果如下特定场景中不希望看到FusionInsight Manager上报指定的告警,可以手动设置屏蔽。 使用过程中,不想关注某些不重要的告警,屏蔽次要告警。 第三方产品集成FusionInsight产品时,部分告警与产品自身的告警信息重复,屏蔽重复告警。 部署环境特殊时,可能存在特定告警误报,屏蔽误报的告警。 某种告警被屏蔽后,与该告警ID相同的新告警将不再出现在“告警管理”页面中,也不会被统计。已经上报的告警仍然显示。
  • 操作场景 密码策略涉及用户管理的安全性,请根据业务安全要求谨慎修改,否则会有安全性风险。 该任务指导管理员用户设置密码安全规则、用户登录安全规则及用户锁定规则。由于“机机”用户密码随机生成,在MRS Manager设置密码策略只影响“人机”用户。开启Kerberos认证的集群或开启弹性公网IP功能的普通集群支持该操作。 如需对新增用户的密码或用户修改的密码使用新的密码策略,请先参考本章节修改密码策略,再创建用户或修改密码。
  • 计算资源 计算资源可分为静态服务资源和动态资源: 静态服务资源 静态服务资源是集群分配给各个服务的计算资源,每个服务的计算资源总量固定,不与其他服务共享,是静态的。这些服务包括Flume、HBase、HDFS和Yarn。 动态资源 动态资源是分布式资源管理服务Yarn动态调度给任务队列的计算资源。Mapreduce、Spark2x、Flink和Hive的任务队列由Yarn来动态调度资源。 大数据集群为Yarn分配的资源是静态服务资源,可以由Yarn动态分配给任务队列计算使用。
  • 简化的权限管理 FusionInsight Manager对普通用户封闭了租户内部的权限管理细节,对管理员简化了权限管理的操作方法,提升了租户权限管理的易用性和用户体验。 使用RBAC方式,在多租户管理时,可根据业务场景为各用户分别配置不同权限。 租户的管理员,具有租户的管理权限,包括:查看当前租户的资源和服务、在当前租户中添加/删除子租户并管理子租户资源的权限。支持定义单个租户的管理员,可以将租户的管理权限委托给系统管理员之外的其他用户。 租户对应的角色,具有租户的计算资源和存储资源的全部权限。创建租户时,系统自动创建租户对应的角色,可以添加用户并绑定该角色为其他用户授权,以使用该租户的资源。
  • 操作场景 Manager的审计日志默认保存在数据库中,如果长期保留可能引起数据目录的磁盘空间不足问题,管理员如果需要将审计日志保存到其他归档服务器,可以在FusionInsight Manager设置转储参数及时自动转储,便于管理审计日志信息。 若用户未配置审计日志转储,当审计日志达到十万条,系统自动将这十万条审计日志保存到文件中。保存路径为主管理节点“${BIGDATA_DATA_HOME}/dbdata_om/dumpData/iam/operatelog”,保存的文件名格式为“OperateLog_store_YY_MM_DD_HH_MM_SS.csv”,保存的审计日志历史文件数最大为50。
  • 背景 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 某些类型的用户(例如银行、政府单位等)对数据安全非常关注,很难容忍将自己的数据与其他用户的放在一起。 这给大数据集群带来了以下挑战: 合理地分配和调度资源,以支持多种应用和作业在集群上平稳运行。 对不同的用户进行严格的访问控制,以保证数据和业务的安全。 多租户将大数据集群的资源隔离成一个个资源集合,彼此互不干扰,用户通过“租用”需要的资源集合,来运行应用和作业,并存放数据。在大数据集群上可以存在多个资源集合来支持多个用户的不同需求。 对此,MRS企业级大数据集群提供了完整的企业级大数据多租户解决方案。
  • 资源池 现代企业IT经常会面对纷繁复杂的集群环境和上层需求。例如以下业务场景: 集群异构,集群中各个节点的计算速度、存储容量和网络性能存在差异,需要把复杂应用的所有任务按照需求,合理地分配到各个计算节点上。 计算分离,多个部门需要数据共享,但是需要把计算完全分离在不同的计算节点上。 这就要求对计算资源的节点进一步分区。 资源池用来指定动态资源的配置。Yarn任务队列和资源池关联,可实现资源的分配和调度。 一个租户只能设置一个默认资源池。用户通过绑定租户相关的角色,来使用该租户资源池的资源。若需要使用多个资源池的资源,可通过绑定多个租户相关的角色实现。
  • 简介 Yarn是大数据集群中的分布式资源管理服务,大数据集群为Yarn分配资源,资源总量可配置。Yarn内部为任务队列进一步分配和调度计算资源。对于Mapreduce、Spark、Flink和Hive的任务队列,计算资源完全由Yarn来分配和调度。 Yarn任务队列是计算资源分配的基本单位。 对于租户,通过Yarn任务队列申请到的资源是动态资源。用户可以动态创建并修改任务队列的配额,可以查看任务队列的使用状态和使用统计。
  • 调度器介绍 MRS集群默认即启用了Superior调度器。 Superior调度器为增强型,Superior取名源自苏必利尔湖,意指由该调度器管理的数据足够大。 为满足企业需求,克服Yarn社区在调度上遇到的挑战与困难,Superior调度器做了以下增强: 增强资源共享策略 Superior调度器支持队列层级,在同集群集成开源调度器的特性,并基于可配置策略进一步共享资源。针对实例,管理员可通过Superior调度器为队列同时配置绝对值或百分比的资源策略计划。Superior调度器的资源共享策略将Yarn的标签调度增强为资源池特性,Yarn集群中的节点可根据容量或业务类型不同,进行分组以使队列更有效地利用资源。 基于租户的资源预留策略 部分租户可能在某些时间中运行关键任务,租户所需的资源应保证可用。Superior调度器构建了支持资源预留策略的机制,在这些租户队列运行的任务可立即获取到预留资源,以保证计划的关键任务可正常执行。 租户和资源池的用户公平共享 Superior调度器提供了队列内用户间共享资源的配置能力。每个租户中可能存在不同权重的用户,高权重用户可能需要更多共享资源。 大集群环境下的调度性能优势 Superior调度器接收到各个NodeManager上报的心跳信息,并将资源信息保存在内存中,使得调度器能够全局掌控集群的资源使用情况。Superior调度器采用了push调度模型,令调度更加精确、高效,大大提高了大集群下的资源使用率。另外,Superior调度器在NodeManager心跳间隔较大的情况下,调度性能依然优异,不牺牲调度性能,也能避免大集群环境下的“心跳风暴”。 优先策略 当某个服务在获取所有可用资源后还无法满足最小资源的要求,则会发生优先抢占。抢占功能默认关闭。
  • 调度机制 Yarn动态资源支持标签调度(Label Based Scheduling)策略,此策略通过为计算节点(Yarn NodeManager)创建标签(Label),将具有相同标签的计算节点添加到同一个资源池中,Yarn根据任务队列对资源的需求,将任务队列和有相应标签的资源池动态关联。 例如,集群中有40个以上的节点,根据各节点的硬件和网络配置,分别用Normal、HighCPU、HighMEM、HighIO为四类节点创建标签,添加到四个资源池中,资源池中的各节点性能如表1所示。 表1 不同资源池中的各节点性能 标签名 节点数 硬件和网络配置 添加到 关联 Normal 10 一般 资源池A 普通的任务队列 HighCPU 10 高性能CPU 资源池B 计算密集型的任务队列 HighMEM 10 大量内存 资源池C 内存密集型的任务队列 HighIO 10 高性能网络 资源池D IO密集型的任务队列 任务队列只能使用所关联的资源池里的计算节点。 普通的任务队列关联资源池A,使用硬件和网络配置一般的Normal节点。 计算密集型的任务队列关联资源池B,使用具有高性能CPU的HighCPU节点。 内存密集型的任务队列关联资源池C,使用具有大量内存的HighMEM节点。 IO密集型的任务队列关联资源池D,使用具有高性能网络的HighIO节点。 Yarn任务队列与特定的资源池关联,可以更有效地使用资源,保证节点性能充足且互不影响。 FusionInsight Manager中最多支持添加50个资源池。系统默认包含一个默认资源池。
  • 使用说明 租户主要用于资源控制、业务隔离的场景。在实际业务中,管理员需要先明确使用集群资源的业务场景,规划租户。 新安装集群的Yarn组件默认使用的是Superior调度器,参见使用Superior调度器的租户业务。 多租户使用包含三类操作:创建租户、管理租户和管理资源。各操作的具体动作如表1所示。 表1 使用租户的各种操作 操作 具体动作 说明 创建租户 添加租户 添加子租户 添加用户并绑定租户的角色 创建租户时,便可根据业务需求,为租户配置计算资源、存储资源和关联服务;为租户添加用户,并为用户绑定需要的角色。 创建一级租户的用户,需要绑定“Manager_administrator”或“System_administrator”角色。 创建子租户的用户,至少需要绑定父租户对应的角色。 管理租户 管理租户目录 恢复租户数据 清除租户非关联队列 删除租户 管理租户是随着业务变化对租户进行的编辑操作。 管理或删除一级租户的用户,以及恢复租户数据的用户,需要绑定“Manager_administrator”或“System_administrator”角色。 管理或删除子租户的用户,至少需要绑定父租户对应的角色。 管理资源 添加资源池 修改资源池 删除资源池 配置队列 配置资源池的队列容量策略 清除队列配置 管理资源是随着业务变化对租户再次配置资源的操作。 管理资源的用户,需要绑定“Manager_administrator”或“System_administrator”角色。 父主题: 多租户使用
  • 流程概述 在实际业务中,管理员需要先明确使用集群资源的业务场景,规划租户。然后在FusionInsight Manager界面添加租户,并配置租户的动态资源、存储资源以及所关联的服务。 创建租户的具体操作流程如流程概述所示。 图1 创建租户流程 创建租户的操作说明如表1所示。 表1 创建租户的操作说明 操作 说明 添加租户 可配置待添加租户的计算资源、存储资源和关联服务。 添加子租户 可配置待添加子租户的计算资源、存储资源和关联服务。 添加用户并绑定租户的角色 若一个用户想要使用“tenant1”租户包含的资源,或为“tenant1”租户添加/删除子租户,则需要同时绑定“Manager_tenant”和“tenant1_集群ID”两个角色。 父主题: 多租户使用
  • 添加租户目录 在FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,单击“添加目录”。 “父目录”,表示当前租户对应父租户的存储目录。 当前租户不是子租户则不显示此参数。 “路径”,填写租户目录的路径。 当前租户不是子租户则新路径将在HDFS的根目录下创建。 “文件\目录数上限”填写文件和目录数量配额。 文件数阈值配置 (%),只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 当前已使用的文件数的数据采集周期为1个小时,因此超过文件数阈值的告警上报会存在延迟。 “存储空间配额”,填写租户目录的存储空间大小。 存储空间阈值配置 (%),表示已使用存储空间超过了设置的“存储空间配额”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 已使用的存储空间的数据采集周期为1个小时,因此超过存储空间阈值的告警上报会存在延迟。 单击“确定”完成租户目录添加。
  • 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看“租户资源状态”,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”或者“HDFS存储”左侧的圆圈,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击,在弹出的确认窗中输入当前登录的用户密码确认身份,单击“确定”。 在“恢复租户资源数据”窗口,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
  • 修改租户目录属性 在FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,指定租户目录的“操作”列,单击“修改”。 “文件\目录数上限”,填写文件和目录数量配额。 文件数阈值配置 (%),只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 “存储空间配额”填写租户目录的存储空间大小。 存储空间阈值配置 (%),表示已使用存储空间超过了设置的“存储空间配额”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 单击“确定”完成租户目录修改。
  • 操作步骤 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“资源分布策略”页签。 “集群”参数选择待操作的集群名称,然后在“资源池”选择指定的资源池。 在“资源分配”列表指定队列的“操作”列,单击“修改”。 在“修改资源分配”窗口的“资源配置策略”页签设置任务队列在此资源池中的资源配置策略。 图1 资源配置策略 “权重”:在发生资源抢占时,权重越大则会优先抢占资源。其初始值与最小资源百分比值一致。 “最小资源”:表示租户能获得的最少资源。 “最大资源”:表示租户能获得的最多资源。 “预留资源”:表示保留给租户自身队列,且不能借用给其他租户队列的资源。 在“修改资源分配”窗口的“用户策略”页签设置用户策略。 图2 用户策略 defaultUser(built-in)表示如果一个用户未配置策略,则默认使用defaultUser所指定的策略。该策略不可删除。 单击“添加用户策略”添加用户策略。 图3 添加用户策略 “用户名”:表示用户的名称。 “权重”:在发生资源抢占时,权重越大则会优先抢占资源。 “最多核数”:表示用户最多可以使用的虚拟核数。 “最大内存”:表示用户最大可以使用的内存。 单击“操作”列的“修改”修改现有用户策略。 单击“操作”列的“清除”删除现有用户策略。 单击“确定”保存配置。
  • 添加租户目录 在FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,单击“添加目录”。 图1 添加目录 “父目录”,表示当前租户对应父租户的存储目录。 当前租户不是子租户则不显示此参数。 “路径”,填写租户目录的路径。 当前租户不是子租户则新路径将在HDFS的根目录下创建。 “文件\目录数上限”填写文件和目录数量配额。 文件数阈值配置 (%),只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 当前已使用的文件数的数据采集周期为1个小时,因此超过文件数阈值的告警上报会存在延迟。 “存储空间配额”,填写租户目录的存储空间大小。 存储空间阈值配置 (%),表示已使用存储空间超过了设置的“存储空间配额”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 已使用的存储空间的数据采集周期为1个小时,因此超过存储空间阈值的告警上报会存在延迟。 单击“确定”完成租户目录添加。
  • 修改租户目录属性 在FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,指定租户目录的“操作”列,单击“修改”。 “文件\目录数上限”,填写文件和目录数量配额。 文件数阈值配置 (%),只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 “存储空间配额”填写租户目录的存储空间大小。 存储空间阈值配置 (%),表示已使用存储空间超过了设置的“存储空间配额”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 单击“确定”完成租户目录修改。
  • 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看“租户资源状态”,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”和“HDFS存储”左侧的圆圈,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击,在弹出的确认窗中输入当前登录的用户密码确认身份,单击“确定”。 在“恢复租户资源数据”窗口,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
共100000条