华为云用户手册

  • 响应示例 状态码: 200 操作成功。 { "resources" : [ { "resource_detail" : null, "resource_id" : "cdfs_cefs_wesas_12_dsad", "resource_name" : "clusterA", "tags" : [ { "key" : "key1", "value" : "value1" }, { "key" : "key2", "value" : "value1" } ] } ], "total_count" : "1000"}
  • 响应示例 状态码: 200 可用区信息 { "available_zones" : [ { "id" : "cn-north-7a", "az_code" : "cn-north-7a", "az_name" : "可用区1", "az_id" : "8c90c2a4e2594c0782faa6b205afeca7", "status" : "Running", "region_id" : "cn-north-7", "az_type" : "Dedicated", "az_group_id" : "", "az_tags" : { "mode" : null, "alias" : null, "public_border_group" : "center" } }, { "id" : "cn-north-7b", "az_code" : "cn-north-7b", "az_name" : "可用区2", "az_id" : "d539378ec1314c85b76fefa3f7071458", "status" : "Running", "region_id" : "cn-north-7", "az_type" : "Dedicated", "az_tags" : { "mode" : null, "alias" : null, "public_border_group" : "center" } }, { "id" : "cn-north-7c", "az_code" : "cn-north-7c", "az_name" : "可用区3", "az_id" : "9f1c5806706d4c1fb0eb72f0a9b18c77", "status" : "Running", "region_id" : "cn-north-7", "az_type" : "Dedicated", "az_tags" : { "mode" : null, "alias" : null, "public_border_group" : "center" } } ], "default_az_code" : "cn-north-7a", "support_physical_az_group" : true}
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 available_zones Array of AvailableZoneV2 objects 可用区列表 default_az_code String 默认可用区编码 support_physical_az_group Boolean 支持的物理可用区分组 表4 AvailableZoneV2 参数 参数类型 描述 id String 可用区编码 az_code String 可用区编码 az_name String 可用区名称 az_id String 可用区id status String 可用区状态 region_id String 区域id az_group_id String 可用区分组id az_type String 当前AZ的类型: Core 核心 Satellite 卫星 Dedicated 专属 Virtual 虚拟 Edge 边缘 EdgeCental 中心边缘 Hybrid 混合云 az_tags AvailableTag object 可用区标签 表5 AvailableTag 参数 参数类型 描述 mode String 模式,分为专属dedicated和共享shared alias String az的别名 public_border_group String 所属group。默认为”center”
  • 请求示例 提交一个presto类型的SQL语句 POST https://{endpoint}/v2/{project_id}/clusters/{cluster_id}/sql-execution{ "sql_type" : "presto", "sql_content" : "show tables", "database" : "default", "archive_path" : "obs://my-bucket/path"}
  • 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 sql_type 是 String SQL类型。目前仅支持“presto”类型的SQL。 说明: 只有包含Presto组件的集群才能提交执行presto类型的SQL。 当前仅MRS 2.0.6版本的MRS 2.0.6.1补丁、MRS 2.1.0版本的MRS 2.1.0.7补丁、MRS 3.1.2及之后版本集群支持。 sql_content 是 String 待执行的SQL语句。 说明: 目前仅支持执行单条语句,语句中不包含“;”。 database 否 String 执行SQL所在的数据库,默认为default。 archive_path 否 String SQL执行结果的转储文件夹。 说明: 只有select语句才会转储查询的结果。当前仅支持转储到OBS中。
  • 响应示例 状态码: 200 提交SQL语句成功 { "id" : "20190909_011820_00151_xxxxx", "statement" : "show tables", "status" : "FINISHED", "result_location" : " obs://my_bucket/uuid_date/xxxx.csv", "content" : [ [ "t1", null ], [ null, "t2" ], [ null, "t3" ] ]} 状态码: 400 提交SQL语句失败 { "error_code" : "MRS.0011", "message" : "提交SQL到Executor上失败,集群ID为xxxx"}
  • 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 node_group 是 String 弹性伸缩规则适用的节点类型,当前只支持task节点。 auto_scaling_policy 是 AutoScalingPolicy object 弹性伸缩规则。 表3 AutoScalingPolicy 参数 是否必选 参数类型 描述 auto_scaling_enable 是 Boolean 当前自动伸缩规则是否开启。 min_capacity 是 Integer 指定该节点组的最小保留节点数。 取值范围:[0~500] max_capacity 是 Integer 指定该节点组的最大节点数。 取值范围:[0~500] resources_plans 否 Array of ResourcesPlan objects 资源计划列表。若该参数为空表示不启用资源计划。 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。 rules 否 Array of Rule objects 自动伸缩的规则列表。 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。 exec_scripts 否 Array of ScaleScript objects 弹性伸缩自定义自动化脚本列表。若该参数为空表示不启用自动化脚本。 表4 ResourcesPlan 参数 是否必选 参数类型 描述 period_type 是 String 资源计划的周期类型,当前只允许以下类型: daily start_time 是 String 资源计划的起始时间,格式为“hour:minute”,表示时间在0:00-23:59之间。 end_time 是 String 资源计划的结束时间,格式与“start_time”相同,不早于start_time表示的时间,且与start_time间隔不小于30min。 min_capacity 是 Integer 资源计划内该节点组的最小保留节点数。 取值范围:[0~500] max_capacity 是 Integer 资源计划内该节点组的最大保留节点数。 取值范围:[0~500] 表5 Rule 参数 是否必选 参数类型 描述 name 是 String 弹性伸缩规则的名称。 只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 在一个节点组范围内,不允许重名。 description 否 String 弹性伸缩规则的说明。 最大长度为1024字符。 adjustment_type 是 String 弹性伸缩规则的调整类型,只允许以下类型: 枚举值: scale_out:扩容 scale_in:缩容 cool_down_minutes 是 Integer 触发弹性伸缩规则后,该集群处于冷却状态(不再执行弹性伸缩操作)的时长,单位为分钟。 取值范围[0~10080],10080为一周的分钟数。 scaling_adjustment 是 Integer 单次调整集群节点的个数。 取值范围[1~100] trigger 是 Trigger object 描述该规则触发条件。 表6 Trigger 参数 是否必选 参数类型 描述 metric_name 是 String 指标名称。 该触发条件会依据该名称对应指标的值来进行判断。 最大长度为64个字符。 详细指标名称内容请参见"配置MRS集群弹性伸缩" metric_value 是 String 指标阈值。 触发该条件的指标阈值,只允许输入整数或者带两位小数的数。 comparison_operator 否 String 指标判断逻辑运算符,包括: LT:小于 GT:大于 LTOE:小于等于 GTOE:大于等于 evaluation_periods 是 Integer 判断连续满足指标阈值的周期数(一个周期为5分钟)。 取值范围[1~288] 表7 ScaleScript 参数 是否必选 参数类型 描述 name 是 String 弹性伸缩自定义自动化脚本的名称,同一个集群的自定义自动化脚本名称不允许相同。 只能由数字、英文字符、空格、中划线和下划线组成,且不能以空格开头。 可输入的字符串长度为1~64个字符。 uri 是 String 自定义自动化脚本的路径。设置为OBS桶的路径或虚拟机本地的路径。 OBS桶的路径:直接手动输入脚本路径。示例:s3a://XXX/scale.sh 虚拟机本地的路径:用户需要输入正确的脚本路径。脚本所在的路径必须以‘/’开头,以.sh结尾。 parameters 否 String 自定义自动化脚本参数。 多个参数间用空格隔开。 可以传入以下系统预定义参数: ${mrs_scale_node_num}:扩缩容节点数 ${mrs_scale_type}:扩缩容类型,扩容为scale_out,缩容为scale_in ${mrs_scale_node_hostnames}:扩缩容的节点主机名称 ${mrs_scale_node_ips}:扩缩容的节点IP ${mrs_scale_rule_name}:触发扩缩容的规则名 其他用户自定义参数使用方式与普通shell脚本相同,多个参数中间用空格隔开。 nodes 是 Array of strings 自定义自动化脚本所执行的节点组名称(非自定义集群也可使用节点类型,包含Master、Core和Task三种类型)。 active_master 否 Boolean 自定义自动化脚本是否只运行在主Master节点上。 缺省值为false,表示自定义自动化脚本可运行在所有Master节点上。 fail_action 是 String 自自定义自动化脚本执行失败后,是否继续执行后续脚本和创建集群。 说明: 建议您在调试阶段设置为“continue”,无论此自定义自动化脚本是否执行成功,则集群都能继续安装和启动。 由于缩容成功无法回滚,因此缩容后执行的脚本“fail_action”必须设置为“continue”。 枚举值: continue:继续执行后续脚本。 errorout:终止操作。 action_stage 是 String 脚本执行时机。 枚举值: before_scale_out:扩容前 before_scale_in:缩容前 after_scale_out:扩容后 after_scale_in:缩容后
  • 请求示例 配置集群弹性伸缩规则 POST https://{endpoint}/v1.1/{project_id}/autoscaling-policy/{cluster_id}{ "node_group" : "task_node_analysis_group", "auto_scaling_policy" : { "auto_scaling_enable" : "true", "min_capacity" : "1", "max_capacity" : "3", "resources_plans" : [ { "period_type" : "daily", "start_time" : "9:50", "end_time" : "10:20", "min_capacity" : "2", "max_capacity" : "3" }, { "period_type" : "daily", "start_time" : "10:20", "end_time" : "12:30", "min_capacity" : "0", "max_capacity" : "2" } ], "exec_scripts" : [ { "name" : "before_scale_out", "uri" : "s3a://XXX/zeppelin_install.sh", "parameters" : "${mrs_scale_node_num} ${mrs_scale_type} xxx", "nodes" : [ "master_node_default_group", "core_node_analysis_group", "task_node_analysis_group" ], "active_master" : "true", "action_stage" : "before_scale_out", "fail_action" : "continue" }, { "name" : "after_scale_out", "uri" : "s3a://XXX/storm_rebalance.sh", "parameters" : "${mrs_scale_node_hostnames} ${mrs_scale_node_ips}", "nodes" : [ "master_node_default_group", "core_node_analysis_group", "task_node_analysis_group" ], "active_master" : "true", "action_stage" : "after_scale_out", "fail_action" : "continue" } ], "rules" : [ { "name" : "default-expand-1", "adjustment_type" : "scale_out", "cool_down_minutes" : "5", "scaling_adjustment" : "1", "trigger" : { "metric_name" : "YARNMemoryAvailablePercentage", "metric_value" : "25", "comparison_operator" : "LT", "evaluation_periods" : "10" } }, { "name" : "default-shrink-1", "adjustment_type" : "scale_in", "cool_down_minutes" : "5", "scaling_adjustment" : "1", "trigger" : { "metric_name" : "YARNMemoryAvailablePercentage", "metric_value" : "70", "comparison_operator" : "GT", "evaluation_periods" : "10" } } ] }}
  • 请求示例 MapReduce作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 1, "job_name" : "mrs_test_jobone_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "jar_path" : "s3a://mrs-opsadm/jarpath/hadoop-mapreduce-examples-2.7.2.jar", "arguments" : "wordcount", "input" : "s3a://mrs-opsadm/input/", "output" : "s3a://mrs-opsadm/output/", "job_log" : "s3a://mrs-opsadm/log/", "file_action" : "", "hql" : "", "hive_script_path" : ""} Spark作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 2, "job_name" : "mrs_test_sparkjob_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "jar_path" : "s3a://mrs-opsadm/jarpath/spark-test.jar", "arguments" : "org.apache.spark.examples.SparkPi 10", "input" : "", "output" : "s3a://mrs-opsadm/output/", "job_log" : "s3a://mrs-opsadm/log/", "file_action" : "", "hql" : "", "hive_script_path" : ""} Hive Script作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 3, "job_name" : "mrs_test_SparkScriptJob_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "jar_path" : "s3a://mrs-opsadm/jarpath/Hivescript.sql", "arguments" : "", "input" : "s3a://mrs-opsadm/input/", "output" : "s3a://mrs-opsadm/output/", "job_log" : "s3a://mrs-opsadm/log/", "file_action" : "", "hql" : "", "hive_script_path" : "s3a://mrs-opsadm/jarpath/Hivescript.sql"} DistCp导入作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 5, "job_name" : "mrs_test_importjob_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "input" : "s3a://mrs-opsadm/jarpath/hadoop-mapreduce-examples-2.7.2.jar", "output" : "/user", "file_action" : "import"} DistCp导出作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 5, "job_name" : "mrs_test_exportjob_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "input" : "/user/hadoop-mapreduce-examples-2.7.2.jar", "output" : "s3a://mrs-opsadm/jarpath/", "file_action" : "export"} Spark Script作业请求示例 POST https://{endpoint}/v1.1/{project_id}/jobs/submit-job{ "job_type" : 6, "job_name" : "mrs_test_sparkscriptjob_20170602_141106", "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "jar_path" : "s3a://mrs-opsadm/jarpath/sparkscript.sql", "arguments" : "", "input" : "s3a://mrs-opsadm/input/", "output" : "s3a://mrs-opsadm/output/", "job_log" : "s3a://mrs-opsadm/log/", "file_action" : "", "hql" : "", "hive_script_path" : "s3a://mrs-opsadm/jarpath/sparkscript.sql"}
  • 响应示例 状态码: 200 新增作业成功。 { "job_execution" : { "templated" : "false", "created_at" : "1496387588", "updated_at" : "1496387588", "id" : "12ee9ae4-6ee1-48c6-bb84-fb0b4f76cf03", "tenant_id" : "c71ad83a66c5470496c2ed6e982621cc", "job_id" : "", "job_name" : "mrs_test_jobone_20170602_141106", "input_id" : null, "output_id" : null, "start_time" : "1496387588", "end_time" : null, "cluster_id" : "e955a7a3-d334-4943-a39a-994976900d56", "engine_job_id" : null, "return_code" : null, "is_public" : null, "is_protected" : null, "group_id" : "12ee9ae4-6ee1-48c6-bb84-fb0b4f76cf03", "jar_path" : "s3a://mrs-opsadm/jarpath/hadoop-mapreduce-examples-2.7.2.jar", "input" : "s3a://mrs-opsadm/input/", "output" : "s3a://mrs-opsadm/output/", "job_log" : "s3a://mrs-opsadm/log/", "job_type" : "1", "file_action" : "", "arguments" : "wordcount", "hql" : "", "job_state" : "2", "job_final_status" : "0", "hive_script_path" : "", "create_by" : "b67132be2f054a45b247365647e05af0", "finished_step" : "0", "job_main_id" : "", "job_step_id" : "", "postpone_at" : "1496387588", "step_name" : "", "step_num" : "0", "task_num" : "0", "update_by" : "b67132be2f054a45b247365647e05af0", "credentials" : "", "user_id" : "b67132be2f054a45b247365647e05af0", "job_configs" : null, "extra" : null, "data_source_urls" : null, "info" : null }}
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 message String 错误信息。 status String 取消SQL的执行结果。 说明: 默认返回SUCCEED,对于已经结束的任务也会返回SUCCEED,只有取消正在运行的SQL时没成功才会FAILED。 枚举值: SUCCEED:成功 FAILED:失败 状态码: 500 表3 响应Body参数 参数 参数类型 描述 message String 错误信息。 status String 取消SQL的执行结果。 说明: 默认返回SUCCEED,对于已经结束的任务也会返回SUCCEED,只有取消正在运行的SQL时没成功才会FAILED。 枚举值: SUCCEED:成功 FAILED:失败
  • URI POST /v2/{project_id}/clusters/{cluster_id}/sql-execution/{sql_id}/cancel 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目编号。获取方法,请参见获取项目ID。 cluster_id 是 String 集群ID。获取方法,请参见获取集群ID。 sql_id 是 String SQL的执行ID,即提交SQL语句返回结果中的sql_id。
  • 最佳实践示例 假设一个集群,共有主机100台,分别在两个机房中:机房A有40台主机,机房B有60台主机。在机房A中,物理机架Ra1有11台主机,物理机架Ra2有29台。在机房B中,物理机架Rb1有6台主机,物理机架Rb2有33台主机,物理机架Rb3有18台主机,物理机架Rb4有3台主机。 根据以上的“机架分配策略”,设置每个逻辑机架包含20个主机,具体分配如下: 逻辑机架 /default/racka1: 包含物理机架Ra1的11台主机,Ra2的9台主机。 逻辑机架 /default/racka2: 包含物理机架Ra2的剩余的20台主机。 逻辑机架 /default/rackb1: 包含物理机架Rb1的6台主机,Rb2的13台主机。 逻辑机架 /default/rackb2: 包含物理机架Rb2的剩余的20台主机。 逻辑机架 /default/rackb3: 包含物理机架Rb3的18台主机,Rb4的3台主机。 机架划分示例如下:
  • 操作步骤 登录FusionInsight Manager。 单击“主机”。 勾选待操作主机前的复选框。 在“更多”选择“设置机架”。 机架名称需遵循实际网络拓扑结构,以层级形式表示;各层级间以斜线“/”隔开。 机架命名规则为:“/level1/level2/…”,级别至少为一级,名称不能为空。机架名称由字母、数字及下划线“_”组成,且总长度不超过200个字符。 例如“/default/rack0”。 如果待修改机架中所包含的主机中有DataNode实例,请确保所有DataNode实例所在主机的机架名称的层级一致。否则,会导致配置下发失败。 单击“确定”,完成机架分配设置。
  • 操作场景 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。 为了提高容错能力,分布式服务的进程或数据需要尽可能存在多个机架的不同主机上。 Hadoop使用一种类似于文件目录结构的方式来表示主机。 由于HDFS不能自动判断集群中各个DataNode的网络拓扑情况,管理员需设置机架名称来确定主机所处的机架,NameNode才能绘出DataNode的网络拓扑图,并尽可能将DataNode的数据备份在不同机架中。同理,YARN需要获取机架信息,在可允许的范围内将任务分配给不同的NodeManager执行。 当集群网络拓扑发生变化时,需要使用FusionInsight Manager为主机重新分配机架,相关服务才会自动调整。
  • 机架分配策略 物理机架:主机所在的真实的机架。 逻辑机架:在FusionInsight Manager中给主机设置的机架名称。 策略 1:每个逻辑机架包含的主机个数基本一致。 策略 2:主机所设置的逻辑机架要尽量符合其所在的物理机架。 策略 3:如果一个物理机架的主机个数很少,则需要和其他的主机较少的物理机架合并为一个逻辑机架,以满足策略1。不能将两个机房的主机合并为一个逻辑机架,否则会引起性能问题。 策略 4:如果一个物理机架的主机个数很多,则需要将其分隔为多个逻辑机架,以满足策略1。不建议物理机架中包含的主机有太大的差异,这样会降低集群的可靠性。 策略 5:建议机架的第一层为默认的“default”或其他值,但在集群中保持一致。 策略 6:每个机架所包含的主机个数不能小于3。 策略 7:一个集群的逻辑机架数,不建议多于50个(过多则不便于维护)。
  • 主机列表 主机管理页面的主机列表包含了所有集群中所有主机,并支持对主机进行相关运维操作。 在主机管理页面,可通过节点类型或所属集群筛选主机,对主机类型的筛选规则为: 管理节点为部署了OMS的节点,同时管理节点上也可能部署控制角色和数据角色。 控制节点为部署控制角色的节点,同时控制节点上也可能部署数据角色。 数据节点为仅部署数据角色的节点。 系统默认为“主机视图”,可显示每个主机的IP地址信息、机架规划信息、运行状态、所归属集群以及硬件资源等使用情况。 表1 主机运行状态 状态 说明 良好 表示主机当前状态正常。 故障 表示主机当前无法正常工作。 未知 表示主机的初始状态信息无法检测。 已隔离 表示主机处于隔离的状态。 已停机 表示主机处于停机的状态。
  • 角色实例列表 角色实例列表包含了该服务中所有的角色在集群中的实例情况,列表可显示每个实例的运行状态、配置状态、实例对应的主机以及相关的IP地址信息等。 表2 实例运行状态 状态 说明 良好 表示实例当前运行正常。 故障 表示实例当前无法正常工作。 已退服 表示实例处于退服状态。 未启动 表示实例已停止。 未知 表示实例的初始状态信息无法检测。 正在启动 表示实例正在执行启动过程。 正在停止 表示实例正在执行停止过程。 正在恢复 表示实例可能存在异常正在自动修复。 正在退服 表示实例正在执行退服过程。 正在入服 表示实例正在执行入服过程。 启动失败 表示实例启动操作失败。 停止失败 表示实例停止操作失败。
  • 批量更新hosts文件 检查需要更新“/etc/hosts”文件的节点的配置用户是否为“root”。 是,执行2。 否,更改配置用户为“root”,再执行2。 执行sh client_batch_upgrade.sh -r -f /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_Client.tar -g /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_ClientConfig/batch_upgrade/client-info.cfg,批量刷新客户端所在节点的“/etc/hosts”文件。 执行批量刷新“/etc/hosts”文件时,输入的客户端包可以是完整客户端,也可以是仅包含配置文件的客户端软件包,推荐使用仅包含配置文件的客户端软件包。 需要更新“/etc/hosts”文件的主机所配置的用户必须为root用户,否则会刷新失败。
  • 操作场景 滚动重启指当集群中服务角色升级更新或修改配置后,在尽可能不中断业务的前提下的重启操作。 如果需要批量为集群中所有服务进行重启且不中断业务,可执行集群滚动重启操作。 部分服务不支持滚动重启,在执行滚动重启集群的过程中,不支持滚动重启的服务将进行普通重启,业务可能会中断。请根据界面提示是否可以执行操作。 如果修改了端口类等需要尽快生效的配置(例如服务端的端口),则不建议通过滚动重启的方式使之生效,建议采用普通重启。
  • 服务状态预览区 主页界面的左侧展示各集群主机个数及已安装服务个数,可通过单击,展开对应集群的全部服务信息,查看当前集群已安装各服务的状态和告警情况。 通过单击,对当前集群进行基本的运维管理操作,详情请参考表1。 每个服务名称左侧的表示当前该服务运行状态良好,表示当前服务启动失败,表示当前服务未启动。 同时服务名称右侧可查看当前该服务是否产生了告警,如果存在告警,则以图标区分告警的级别并显示告警数。 对于支持多服务特性的组件,若在同一集群中安装了多个服务,服务的右侧会显示安装的个数。 如果服务右侧显示则表示该服务配置已过期。
  • 参考信息 DataNode JVM参数配置规则 DataNode JVM参数“GC_OPTS”默认值为: -Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=128M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M -Djdk.tls.ephemeralDHKeySize=2048 集群中每个DataNode实例平均保存的Blocks= HDFS Block * 3÷DataNode节点数,单个DataNode实例平均Block数量变化时请修改默认值中的“-Xms2G -Xmx4G -XX:NewSize=128M -XX:MaxNewSize=256M”。参考值如下表所示。 表1 DataNode JVM配置 单个DataNode实例平均Block数量 参考值 2,000,000 -Xms6G -Xmx6G -XX:NewSize=512M -XX:MaxNewSize=512M 5,000,000 -Xms12G -Xmx12G -XX:NewSize=1G -XX:MaxNewSize=1G Xmx内存值对应DataNode节点块数阈值,每GB对应500000块数,用户可根据需要调整内存值。
  • 操作步骤 针对MRS 3.x之前版本实时监控和历史报表界面合一,操作步骤如下。 登录MRS Manager,具体请参考访问MRS Manager(MRS 2.x及之前版本)。 在MRS Manager选择“系统概览”。 在“时间区间”选择需要查看监控数据的时间段。可供选择的选项如下: 实时 最近3小时 最近6小时 最近24小时 最近一周 最近一个月 最近三个月 最近六个月 自定义:选择自定义时,在时间范围内自行选择需要查看的时间。 单击“查看”可以查看相应时间区间的监控数据。 MRS Manager在“服务概览”显示各个服务的“健康状态”和“角色数”。 单击曲线图表上侧的图标,可显示具体的指标说明信息。 自定义监控指标报表。 单击“定制”,勾选需要在MRS Manager显示的监控指标。 MRS Manager支持统计的指标共14个,界面最多显示12个定制的监控指标。 集群主机健康状态统计 集群网络读速率统计 主机网络读速率分布 主机网络写速率分布 集群磁盘写速率统计 集群磁盘占用率统计 集群磁盘信息 主机磁盘占用率分布 集群磁盘读速率统计 集群内存占用率统计 主机内存占用率分布 集群网络写速率统计 主机CPU占用率分布 集群CPU占用率统计 单击“确定”保存并显示所选指标。 单击“清除”可批量取消全部选中的指标项。 用户可以选择页面自动刷新间隔的设置,也可以单击马上刷新。 支持三种参数值: “每60秒刷新一次”:刷新间隔60秒。 “每120秒刷新一次”:刷新间隔120秒。 “停止刷新”:停止刷新。 勾选“全屏”会将“系统概览”窗口最大化。 导出监控指标报表。 选择报表的时间范围。可供选择的选项如下: 实时 最近3小时 最近6小时 最近24小时 最近一周 最近一个月 最近三个月 最近六个月 自定义:选择自定义时,自行选择需要导出报表的时间。 单击“导出”,Manager将生成指定时间范围内、已勾选的集群监控指标报表文件,请选择一个位置保存,并妥善保管该文件。 如果需要查看指定时间范围的监控指标对应的分布曲线图,请单击“查看”,界面将显示用户自定义时间范围内选定指标的分布曲线图。
  • 对象管理简介 MRS集群包含了各类不同的基本对象,不同对象的描述介绍如表1所示: 表1 MRS基本对象概览 对象 描述 举例 服务 可以完成具体业务的一类功能集合。 例如KrbServer服务和LdapServer服务。 服务实例 服务的具体实例,一般情况下可使用服务表示。 例如KrbServer服务。 服务角色 组成一个完整服务的一类功能实体,一般情况下可使用角色表示。 例如KrbServer由KerberosAdmin角色和KerberosServer角色组成。 角色实例 服务角色在主机节点上运行的具体实例。 例如运行在Host2上的KerberosAdmin,运行在Host3上的KerberosServer。 主机 一个弹性云服务器,可以运行Linux系统。 例如Host1~Host5。 机架 一组包含使用相同交换机的多个主机集合的物理实体。 例如Rack1,包含Host1~Host5。 集群 由多台主机组成的可以提供多种服务的逻辑实体。 例如名为Cluster1的集群由(Host1~Host5)5个主机组成,提供了KrbServer和LdapServer等服务。 父主题: 组件管理
  • 操作步骤 查看服务的配置。 在集群详情页,单击“组件管理”。 图2 组件管理 单击服务列表中指定的服务名称。 单击“服务配置”。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该服务的全部配置参数导航树,导航树从上到下的根节点分别为服务名称和角色名称。 图3 全部配置 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在服务节点下的参数属于服务配置参数,在角色节点下的参数是角色配置参数。 在“——请选择——”选项中选择“非默认”,界面上显示参数值为非默认值的参数(MRS 3.x之前版本存在此选项)。 查看角色实例的配置。 在集群详情页,单击“组件管理”。 图4 组件管理(以MRS 1.9.2版本为例) 单击服务列表中指定的服务名称。 单击“实例”页签。 单击角色实例列表中指定的角色实例名称。 单击“实例配置”。 将页面右侧“基础配置”切换为“全部配置”,界面上将显示该角色实例的全部配置参数导航树。 在导航树选择指定的参数,修改参数值。支持在“搜索”输入参数名直接搜索并显示结果。 在“——请选择——”选项中选择“非默认”,界面上显示参数值为非默认值的参数(MRS 3.x之前版本存在此选项)。
  • 操作场景 该任务指导用户在日常运维中完成集群进行健康检查的工作,以保证集群各项参数、配置以及监控没有异常、能够长时间稳定运行。 系统健康检查的范围包含Manager、服务级别和主机级别的健康检查: Manager关注集群统一管理平台是否提供管理功能。 服务级别关注组件是否能够提供正常的服务。 主机级别关注主机的一系列指标是否正常。 系统健康检查可以包含三方面检查项:各检查对象的“健康状态”、相关的告警和自定义的监控指标,检查结果并不能等同于界面上显示的“健康状态”。
  • 操作场景 用户可以在MRS Manager查看、清除告警。 一般情况下,告警处理后,系统自动清除该条告警记录。当告警不具备自动清除功能且用户已确认该告警对系统无影响时,可手动清除告警。 在MRS Manager界面可查看最近十万条告警(包括未清除的、手动清除的和自动清除的告警)。如果已清除告警超过十万条达到十一万条,系统自动将最早的一万条已清除告警转存,转存路径为主管理节点“${BIGDATA_HOME}/OMSV100R001C00x8664/workspace/data”。第一次转存告警时自动生成目录。 用户可以选择页面自动刷新间隔的设置,也可以单击马上刷新。 支持三种参数值: “每30秒刷新一次”:刷新间隔30秒。 “每60秒刷新一次”:刷新间隔60秒。 “停止刷新”:停止刷新。
  • 操作步骤 查看服务监控指标的资源分布 在MRS Manager,单击“服务管理”。 单击服务列表中指定的服务名称。 单击“资源贡献排名”。 “指标”中选择服务的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 查看主机监控指标的资源分布 单击“主机管理”。 单击主机列表中指定的主机名称。 单击“资源贡献排名”。 “指标”中选择主机的关键指标,MRS Manager将显示过去1小时内指标的资源分布情况。 配置资源分布 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“资源贡献排名配置”。 修改资源分布的显示数量。 “TOP数量”填写最大值的显示数量。 “BOTTOM数量”填写最小值的显示数量。 最大值与最小值的资源分布显示数量总和不能大于5。 单击“确定”保存设置。 界面右上角提示“保存TOP数量和BOTTOM数量成功。”。
  • 操作步骤 在MRS Manager,单击“告警管理”,在告警列表查看告警信息。 告警列表每页默认显示最近的十条告警。 默认以“产生时间”列按降序排列,单击“告警ID”、“告警名称”、“告警级别”、“产生时间”、“定位信息”或“操作”可修改排列方式。 支持在“告警级别”筛选相同级别的全部告警。结果包含已清除和未清除的告警。 分别单击、、或可以快速筛选级别为“致命”、“严重”、“一般”或“警告”的告警。 单击“高级搜索”显示告警搜索区域,设置查询条件后,单击“搜索”,查看指定的告警信息。单击“重置”清除输入的搜索条件。 “开始时间”和“结束时间”表示时间范围的开始时间和结束时间,可以搜索此时间段内产生的告警。 查看“告警参考”章节告警帮助,按照帮助指导处理告警。如果某些场景中告警由于MRS依赖的其他云服务产生,可能需要联系对应云服务运维人员处理。 处理完告警后,若需手动清除,单击“清除告警”,手动清除告警。 如果有多个告警已完成处理,可选中一个或多个待清除的告警,单击“清除告警”,批量清除告警。每次最多批量清除300条告警。
  • 操作步骤 在MRS Manager,单击“系统设置”。 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。 单击某一指标例如“CPU使用率”,单击“添加规则”。 在“配置”对话框中填写监控指标规则参数。 表1 监控指标规则参数 参数名 参数解释 参数值 规则名称 规则名称 CPU_MAX(举例) 参考日期 查看某指标的历史参考数据 2014/11/06(举例) 阈值类型 选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 最小值 告警级别 告警级别 致命 严重 一般 提示 时间范围 设置规则生效时监控指标的具体时间段 从00:00到23:59(举例) 阈值 设置规则监控指标的阈值 设置数值 80(举例) 日期 设置规则生效的日期类型 工作日 周末 其它 添加日期 日期选择“其他”时该参数生效。可选择多个日期。 11/30(举例) 单击“确定”。界面右上角弹出提示“模板保存成功。”。 “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
共100000条