华为云用户手册

  • 请求URI 请求URI由如下部分组成。 {URI-scheme} :// {Endpoint} / {resource-path} ? {query-string} 尽管请求URI包含在请求消息头中,但大多数语言或框架都要求您从请求消息中单独传递它,所以在此单独强调。 URI-scheme:表示用于传输请求的协议,当前所有API均采用HTTPS协议。 Endpoint:指定承载REST服务端点的服务器域名或IP,不同服务不同区域的Endpoint不同。例如IAM服务在“华北-北京四”区域的Endpoint为“iam.cn-north-4.myhuaweicloud.com”,全球SIM联接服务在“华北-北京四”区域的Endpoint为“gsl.cn-north-4.myhuaweicloud.com”。 resource-path:资源路径,也即API访问路径。从具体API的URI模块获取,例如“查询SIM卡列表”API的resource-path为“/v1/sim-cards”。 query-string:查询参数,是可选部分,并不是每个API都有查询参数。查询参数前面需要带一个“?”,形式为“参数名=参数取值”,例如“limit=10”,表示查询不超过10条数据。 例如您需要查询SIM卡列表,则需使用“华北-北京四”区域的Endpoint(gsl.cn-north-4.myhuaweicloud.com),并在查询SIM卡列表的URI部分找到resource-path(/v1/sim-cards),拼接起来如下所示。 https://gsl.cn-north-4.myhuaweicloud.com/v1/sim-cards 为方便查看,在每个具体API的URI部分,只给出resource-path部分,并将请求方法写在一起。这是因为URI-scheme都是HTTPS,而Endpoint在同一个区域也相同,所以简洁起见将这两部分省略。
  • 请求方法 HTTP请求方法(也称为操作或动词),它告诉服务你正在请求什么类型的操作。 GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 在查询SIM卡列表的URI部分,您可以看到其请求方法为“GET”,则其请求为: GET https://gsl.cn-north-4.myhuaweicloud.com/v1/sim-cards
  • 请求消息头 附加请求头字段,如指定的URI和HTTP方法所要求的字段。例如定义消息体类型的请求头“Content-Type”,请求鉴权信息等。 如下公共消息头需要添加到请求中。 Content-Type:消息体的类型(格式),必选,默认取值为“application/json”,有其他取值时会在具体接口中专门说明。 X-Auth-Token:用户Token,当使用Token方式认证时,必须填充该字段。用户Token也就是调用获取用户Token接口的响应值,接口返回的响应消息头中“X-Subject-Token”就是需要获取的用户Token。 对于查询SIM卡列表接口,由于需要认证,所以需要添加“Content-Type”和“X-Auth-Token”到头域,添加消息头后的请求如下所示。 GET https://gsl.cn-north-4.myhuaweicloud.com/v1/sim-cards Content-Type: application/json X-Auth-Token:******
  • 响应示例 状态码: 200 OK,请求响应成功。 { "line_list" : [ { "point_list" : [ { "time" : 1666682400000, "value" : 8 }, { "time" : 1666682460000, "value" : 8 }, { "time" : 1666682520000, "value" : 8 }, { "time" : 1666682580000, "value" : 8 }, { "time" : 1666682640000, "value" : 8 }, { "time" : 1666682700000, "value" : 8 }, { "time" : 1666682760000, "value" : 8 }, { "time" : 1666682820000, "value" : 8 }, { "time" : 1666682880000, "value" : 8 }, { "time" : 1666682940000, "value" : 8 }, { "time" : 1666683000000, "value" : 8 }, { "time" : 1666683060000, "value" : 8 }, { "time" : 1666683120000, "value" : 8 }, { "time" : 1666683180000, "value" : 8 }, { "time" : 1666683240000, "value" : 8 }, { "time" : 1666683300000, "value" : 8 }, { "time" : 1666683360000, "value" : 8 }, { "time" : 1666683420000, "value" : null }, { "time" : 1666683480000, "value" : null }, { "time" : 1666683540000, "value" : null } ], "title" : "调用次数", "unit" : null, "precision" : null, "data_type" : "INT", "visible" : true } ], "latest_data_Time" : 1666683360000 }
  • 请求示例 获取趋势图。入参中,view_type对应的值是trend。 /v1/apm2/openapi/view/metric/trend { "end_time" : "2022-10-25 15:40:00", "env_id" : "11", "monitor_item_id" : 78, "start_time" : "2022-10-25 15:20:00", "view_config" : { "latest" : null, "span" : true, "collector_name" : "Url", "metric_set" : "url", "title" : "调用次数", "table_direction" : null, "group_by" : "", "filter" : "url=/apm2/health/v1/health-check^method=GET", "field_item_list" : [ { "trace" : null, "function" : "SUM(invokeCount)", "as" : "调用次数", "default_value" : null, "precision" : null, "unit" : null, "visible" : true } ], "span_field" : "source", "view_type" : "trend" } }
  • 响应参数 状态码: 200 表5 响应Body参数 参数 参数类型 描述 line_list Array of FrontLine objects 趋势图数据列表。 latest_data_Time Long 最后日期时间。 表6 FrontLine 参数 参数类型 描述 point_list Array of FrontPoint objects 数据点集合。 title String 标题。 unit String 单位。 precision Integer 百分比。 data_type String 日期类型。 visible Boolean 是否可见。 表7 FrontPoint 参数 参数类型 描述 time Long 时间。 value Object 值。
  • 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 x-business-id 是 Long 应用id。 X-Auth-Token 是 String 从IAM服务获取的用户Token。 表2 请求Body参数 参数 是否必选 参数类型 描述 view_config 是 TrendView object 视图配置信息。 instance_id 否 Long 实例id。 monitor_item_id 否 Long 监控项id。 env_id 是 Long 环境id。 start_time 是 String 开始时间。 end_time 是 String 结束时间。 表3 TrendView 参数 是否必选 参数类型 描述 view_type 否 String 视图类型。 枚举值: trend sumtable rawtable collector_name 是 String 采集器名称。 metric_set 是 String 视图对应的指标集名称。 title 否 String 图标所需展示的标题。 table_direction 否 String 表格的方向,H:默认,表头横向,V:表头纵向。 枚举值: H V group_by 否 String 分组。 filter 否 String 过滤列表模型。 field_item_list 是 Array of FieldItem objects 所需展示的字段列表模型列表。 span 否 Boolean 跨度。 span_field 否 String span字段属性。 order_by 否 String 排序。 latest 否 String 是否只展示最近一笔数据。 表4 FieldItem 参数 是否必选 参数类型 描述 function 是 String 表达式。 as 否 String 作为。 default_value 否 String 默认值。 trace 否 Boolean 是否是trace。 precision 否 Integer 百分比。 unit 否 String 单位。 visible 否 Boolean 是否可见。
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 access_ak_sk_models Array of AccessAkskVO objects ak/sk数据模型。 表3 AccessAkskVO 参数 参数类型 描述 id Integer ak/sk的id。 gmt_create String ak/sk的生成时间。 gmt_modify String ak/sk的修改时间。 inner_domain_id Integer 内部租户id。 ak String 生成的ak。 sk String 生成的sk。 status String ak/sk的状态。 descp String ak/sk的描述信息。
  • 响应示例 状态码: 200 OK,请求响应成功。 { "access_ak_sk_models" : [ { "ak" : "vca******04j", "sk" : "ktns******6iq6t9m", "status" : "enable", "descp" : "auto create", "id" : 1, "gmt_create" : "1654585924000", "gmt_modify" : "1654575214000", "inner_domain_id" : 1 } ] }
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 total_page Integer 总页数。 total_count Integer 总个数。 online_count Integer 正常个数。 offline_count Integer 心跳异常个数。 disable_count Integer 被关闭的个数。 agent_info_list Array of InstanceInfo objects agent地址列表。 表4 InstanceInfo 参数 参数类型 描述 instance_id Long 实例id。 business_name String 应用名称。 business_id Long 应用id。 app_name String 组件名称。 host_name String 主机名称。 instance_name String 实例名称。 ip_address String 主机ip地址。 env_id Long 环境ID。 agent_version String Javaagent版本。 last_heartbeat Long 最后心跳时间。 register_time Long 注册时间。 last_modify_user_id String 最后修改用户id。 instance_status Integer 实例状态,0表示启用,1表示停用,2表示离线。 last_modify_user_name String 最后修改用户名称。 last_modify_time Long 最后修改时间。
  • 响应示例 状态码: 200 OK,请求响应成功。 { "total_page" : 1, "total_count" : 1, "online_count" : 1, "offline_count" : 0, "disable_count" : 0, "agent_info_list" : [ { "instance_id" : 5298, "business_name" : "LubanApm", "business_id" : null, "app_name" : "apm-data-deliver/xx-xxxx-xxx", "host_name" : "szv*******1", "instance_name" : "default", "ip_address" : "*.*.*.*", "env_id" : 1105, "agent_version" : "2.1.16", "last_heartbeat" : 1669684246000, "register_time" : 1657762671000, "last_modify_user_id" : "70iWY********VHVd", "instance_status" : 0, "last_modify_user_name" : "yWX", "last_modify_time" : 1667839085000 } ] }
  • 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 从IAM服务获取的用户Token。 x-business-id 是 Long 应用id。 表2 请求Body参数 参数 是否必选 参数类型 描述 business_id 是 Long 应用id。 env_id 否 Long 环境id status 否 String 探针状态。 枚举值: online disable offline region 是 String region英文名称。 order_by_status 否 String 是否按照采集状态排序,默认不填则不按状态排序,填y则按照状态排序。 page 是 Integer 需要查询的页码,最小数为1。 page_size 是 Integer 查询结果每页最多显示的条数。 keyword 否 String 关键字。
  • 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 从IAM服务获取的用户Token。 x-business-id 是 Long 应用id。 表2 请求Body参数 参数 是否必选 参数类型 描述 instance_list 是 Array of integers 实例列表。 region 是 String region英文名称。 business_id 是 Long 应用id。
  • 响应示例 状态码: 200 OK,请求响应成功。 { "business_nodes" : [ { "default" : true, "id" : 2, "gmt_create" : null, "gmt_modify" : null, "name" : "apm2", "display_name" : "apm2", "is_default" : true, "inner_domain_id" : 1, "eps_id" : "**********" } ] }
  • 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 business_nodes Array of 表3 objects 获取应用列表数据结构。 表3 BusinessNodeModel 参数 参数类型 描述 default Boolean 默认应用。 display_name String 应用展示名称。 eps_id String 企业项目的id。 gmt_create String 创建时间。 gmt_modify String 修改时间。 id Long 应用id。 inner_domain_id Integer 内部租户id。 is_default Boolean 是否是默认的应用。 name String 应用的英文名称。
  • 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 x-business-id 是 Long 应用id。 X-Auth-Token 是 String 从IAM服务获取的用户Token。 表2 请求Body参数 参数 是否必选 参数类型 描述 instance_list 是 Array of integers 探针实例id列表。 target_status 是 Integer 期望探针改变后的状态,0或1,0表示启用,1表示停用。 region 是 String 探针所在的区域。 env_id 否 Long 探针所属环境的id。
  • 操作场景 在集群中,管理员可从逻辑上对所有Yarn的节点进行分区,使多个NodeManager形成一个Yarn资源池。每个NodeManager只能属于一个资源池。管理员通过FusionInsight Manager添加一个自定义的资源池,并将未加入自定义资源池的主机加入此资源池,便于指定的队列利用这些计算资源。 系统中默认包含了一个名为“default”的资源池,所有未加入用户自定义资源池的NodeManager属于此资源池。
  • Manager例行维护说明 为了保证系统长期正常、稳定的运行,管理员或维护工程师需要定期对表1所示的项目进行检查,并根据检查出的异常结果排除故障。建议检查人员根据企业管理规范,记录每个任务场景的结果并签名确认。 表1 项目一览表 例行维护周期 任务场景 例行维护内容 每天 检查集群服务状态 检查每个服务的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的运行状态和配置状态是否正常,是否为绿色。 检查每个服务中,角色实例的主备状态是否可以正常显示。 检查服务与角色实例的“概览”显示结果是否正常。 检查集群主机状态 检查每个主机当前的运行状态是否正常,是否为绿色。 检查每个主机当前的磁盘使用率、内存使用率和CPU使用率。关注当前内存与CPU使用率是否处于上升趋势。 检查集群告警信息 检查前一天是否生成了未处理异常告警,包含已自动恢复的告警。 检查集群审计信息 检查前一天是否有“高危”和“危险”的操作,是否已确认操作的合法性。 检查集群备份情况 检查前一天OMS、LDAP、DBService和NameNode数据是否自动备份。 检查健康检查结果 在FusionInsight Manager执行健康检查,下载健康检查报告确认当前集群是否存在异常状态。建议启用自动健康检查,并及时导出最新的集群健康检查结果,根据检查结果修复不健康项目。 检查网络通讯 检查集群网络工作状态,节点之间的网络通讯是否存在延时。 检查存储状态 检查集群总体数据存储量是否出现了突然的增长: 磁盘使用量是否已接近阈值,排查原因,例如是否有业务留下的垃圾数据或冷数据需要清理。 业务是否有增长需求,磁盘分区是否需要扩容。 检查日志情况 检查是否有失败、失去响应的MapReduce、Spark任务,查看HDFS中“/tmp/logs/${username}/logs/${application id}”日志文件并排除问题。 检查Yarn的任务日志,查看失败、失去响应的任务日志,并删除重复数据。 检查Storm的worker日志。 备份日志到存储服务器。 每周 用户管理 检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。 分析告警 导出指定周期内产生的告警并分析。 扫描磁盘 对磁盘健康状态进行检查,建议使用专门的磁盘检查工具。 统计存储 分批次排查集群节点磁盘数据是否均匀存储,筛选出明显数据增加或不足的硬盘,并确认硬盘是否正常。 记录变更 安排并记录对集群配置参数和文件实施的操作,为故障分析处理场景提供依据。 每月 分析日志 收集集群节点服务器的硬件日志,例如BMC系统日志,并进行分析。 收集集群节点服务器的操作系统日志,并进行分析。 收集集群日志,并进行分析。 诊断网络 对集群的网络健康状态进行分析。 管理硬件 检查设备运行的机房环境,安排清洁设备。 父主题: 集群管理
  • 操作场景 FusionInsight Manager支持将集群、服务、主机或者OMS配置为维护模式,进入维护模式的对象将不再上报告警,避免在升级等维护变更期间系统产生大量无意义的告警,影响运维人员对集群状态的判断。 集群维护模式 集群未正式上线或暂时离线进行运维操作时(例如非滚动方式的升级),可将整个集群配置为维护模式。 服务维护模式 对特定服务进行维护操作时(例如对该服务的实例进行批量重启等可能影响业务的调试操作、对该服务相关的节点进行直接上下电或修复服务等),可仅将涉及的服务配置为维护模式。 主机维护模式 对主机进行维护操作时(例如节点上下电、隔离主机、重装主机、升级操作系统、替换节点等),可仅将涉及的主机配置为维护模式。 OMS维护模式 对OMS节点进行重启、替换、修复等操作时,可将OMS配置为维护模式。
  • 监控指标参考 FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。 MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。 表2 节点信息监控指标转告警列表 监控指标组名称 监控指标名称 指标含义 默认阈值 CPU 主机CPU使用率 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 90.0% 磁盘 磁盘使用率 描述主机磁盘的使用率。 90.0% 磁盘inode使用率 统计采集周期内磁盘inode使用率。 80.0% 内存 主机内存使用率 统计当前时间点的内存平均使用率。 90.0% 主机状态 主机文件句柄使用率 统计采集周期内该主机的文件句柄使用率。 80.0% 主机PID使用率 主机PID使用率。 90% 网络状态 TCP临时端口使用率 统计采集周期内该主机的TCP临时端口使用率。 80.0% 网络读信息 读包错误率 统计采集周期内该主机上该网口的读包错误率。 0.5% 读包丢包率 统计采集周期内该主机上该网口的读包丢包率。 0.5% 读吞吐率 统计周期内网口的平均读吞吐率(MAC层)。 80% 网络写信息 写包错误率 统计采集周期内该主机上该网口的写包错误率。 0.5% 写包丢包率 统计采集周期内该主机上该网口的写包丢包率。 0.5% 写吞吐率 统计周期内网口的平均写吞吐率(MAC层)。 80% 进程 D状态进程总数 统计周期内主机上D状态进程数量。 0 omm进程使用率 统计周期内omm进程使用率。 90 表3 集群监控指标转告警列表 服务 监控指标组名称 监控指标名称 指标含义 默认阈值 DBService 数据库 数据库连接数使用率 数据库连接数使用率统计。 90% 数据目录磁盘空间使用率 数据目录磁盘空间使用率统计。 80% Flume Agent Flume堆内存使用率 Flume堆内存使用百分比统计。 95.0% Flume直接内存使用率 Flume直接内存使用百分比统计。 80.0% Flume非堆内存使用率 Flume非堆内存使用百分比统计。 80.0% Flume垃圾回收(GC)总时间 Flume垃圾回收(GC)总时间。 12000ms HBase GC GC中回收old区所花时长 RegionServer的总GC时间。 5000ms GC中回收old区所花时长 HMaster的总GC时间。 5000ms CPU和内存 RegionServer直接内存使用率统计 RegionServer直接内存使用率统计。 90% RegionServer堆内存使用率统计 RegionServer堆内存使用率统计。 90% HMaster直接内存使用率统计 HMaster直接内存使用率统计。 90% HMaster堆内存使用率统计 HMaster堆内存使用率统计。 90% 服务 单个RegionServer的region数目 单个RegionServer的Region数目。 2000 处在RIT状态达到阈值时长的region数 处在RIT状态达到阈值时长的region数。 1 容灾 容灾同步失败次数 同步容灾数据失败次数。 1 主集群等待同步的日志文件数量 主集群等待同步的日志文件数量。 128 主集群等待同步的HFile文件数量 主集群等待同步的HFile文件数量。 128 队列 Compaction操作队列大小 Compaction操作队列大小。 100 HDFS 文件和块 HDFS缺失的块数量 HDFS文件系统中缺少副本块数量。 0 需要复制副本的块总数 NameNode需要复制副本的块总数。 1000 RPC 主NameNode RPC处理平均时间 NameNode RPC处理平均时间。 100ms 主NameNode RPC队列平均时间 NameNode RPC队列平均时间。 200ms 磁盘 HDFS磁盘空间使用率 HDFS磁盘空间使用率。 80% DataNode磁盘空间使用率 HDFS文件系统中DataNode可以使用的磁盘空间率。 80% 总副本预留磁盘空间所占比率 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 90% 资源 故障的DataNode总数 出故障的DataNode节点数量。 3 NameNode非堆内存使用百分比统计 NameNode非堆内存使用百分比统计。 90% NameNode直接内存使用百分比统计 NameNode直接内存使用百分比统计。 90% NameNode堆内存使用百分比统计 NameNode堆内存使用百分比统计。 95% DataNode直接内存使用百分比统计 DataNode直接内存使用百分比统计。 90% DataNode堆内存使用百分比统计 DataNode堆内存使用百分比统计。 95% DataNode非堆内存使用百分比统计 DataNode非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NameNode每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) DataNode每分钟的垃圾回收(GC)所占用的时间。 12000ms Hive HQL Hive执行成功的HQL百分比 Hive执行成功的HQL百分比。 90.0% Background Background线程使用率 Background线程使用率。 90% GC MetaStore的总GC时间 MetaStore的总GC时间。 12000ms HiveServer的总GC时间 HiveServer的总GC时间。 12000ms 容量 Hive已经使用的HDFS空间占可使用空间的百分比 Hive已经使用的HDFS空间占可使用空间的百分比。 85.0% CPU和内存 MetaStore直接内存使用率统计 MetaStore直接内存使用率统计。 95% MetaStore非堆内存使用率统计 MetaStore非堆内存使用率统计。 95% MetaStore堆内存使用率统计 MetaStore堆内存使用率统计。 95% HiveServer直接内存使用率统计 HiveServer直接内存使用率统计。 95% HiveServer非堆内存使用率统计 HiveServer非堆内存使用率统计。 95% HiveServer堆内存使用率统计 HiveServer堆内存使用率统计。 95% Session 连接到HiveServer的session数占最大允许session数的百分比 连接到HiveServer的session数占最大允许session数的百分比。 90.0% Kafka 分区 未完全同步的Partition百分比 未完全同步的Partition数占Partition总数的百分比。 50% 其他 Partition不可用百分比 Kafka各个Topic的Partition不可用占比。 40% broker上用户连接数使用率 broker上用户连接数使用率。 80% 磁盘 Broker磁盘使用率 Broker数据目录所在磁盘的磁盘使用率。 80.0% Broker磁盘IO使用率 Broker数据目录所在磁盘的磁盘IO使用率。 80% 进程 Broker每分钟的垃圾回收时间统计(GC) Broker进程每分钟垃圾回收(GC)所占用的时间。 12000ms Kafka堆内存使用率 Kafka堆内存使用百分比统计。 95% Kafka直接内存使用率 Kafka直接内存使用百分比统计。 95% Loader 内存 Loader堆内存使用率 Loader堆内存使用率。 95% Loader直接内存使用率统计 Loader直接内存使用率统计。 80.0% Loader非堆内存使用率 Loader非堆内存使用率。 80% GC Loader的总GC时间 Loader的总GC时间。 12000ms Mapreduce 垃圾回收 垃圾回收时间统计(GC) 垃圾回收时间统计(GC)。 12000ms 资源 JobHistoryServer直接内存使用百分比统计 JobHistoryServer直接内存使用百分比统计。 90% JobHistoryServer非堆内存使用百分比统计 JobHistoryServer非堆内存使用百分比统计。 90% JobHistoryServer堆内存使用百分比统计 JobHistoryServer堆内存使用百分比统计。 95% Oozie 内存 Oozie堆内存使用率 Oozie堆内存使用率。 95.0% Oozie直接内存使用率 Oozie直接内存使用率。 80.0% Oozie非堆内存使用率 Oozie非堆内存使用率。 80% GC Oozie垃圾回收(GC)总时间 Oozie垃圾回收(GC)总时间。 12000ms Spark/Spark2x 内存 JDBCServer2x堆内存使用率统计 JDBCServer2x堆内存使用率统计。 95% JDBCServer2x直接内存使用率统计 JDBCServer2x直接内存使用率统计。 95% JDBCServer2x非堆内存使用率统计 JDBCServer2x非堆内存使用率统计 95% JobHistory2x直接内存使用率统计 JobHistory2x直接内存使用率统计。 95% JobHistory2x非堆内存使用率统计 JobHistory2x非堆内存使用率统计。 95% JobHistory2x堆内存使用率统计 JobHistory2x堆内存使用率统计。 95% IndexServer2x直接内存使用率统计 IndexServer2x直接内存使用率统计。 95% IndexServer2x堆内存使用率统计 IndexServer2x堆内存使用率统计。 95% IndexServer2x非堆内存使用率统计 IndexServer2x非堆内存使用率统计。 95% GC次数 JDBCServer2x的Full GC次数 JDBCServer2x进程的Full GC次数。 12 JobHistory2x的Full GC次数 JobHistory2x进程的Full GC次数。 12 IndexServer2x的Full GC次数 IndexServer2x进程的Full GC次数。 12 GC时间 JDBCServer2x的总GC时间 JDBCServer2x的总GC时间。 12000ms JobHistory2x的总GC时间 JobHistory2x的总GC时间。 12000ms IndexServer2x的总GC时间 IndexServer2x的总GC时间。 12000ms Storm 集群 Supervisor数 统计周期内集群中可用的Supervisor数目。 1 已用Slot比率 统计周期内集群中可用的slot使用率。 80.0% Nimbus Nimbus堆内存使用率 Nimbus堆内存使用百分比统计。 80% Yarn 资源 NodeManager直接内存使用百分比统计 NodeManager直接内存使用百分比统计。 90% NodeManager堆内存使用百分比统计 NodeManager堆内存使用百分比统计。 95% NodeManager非堆内存使用百分比统计 NodeManager非堆内存使用百分比统计。 90% ResourceManager直接内存使用百分比统计 ResourceManager直接内存使用百分比统计。 90% ResourceManager堆内存使用百分比统计 ResourceManager堆内存使用百分比统计。 95% ResourceManager非堆内存使用百分比统计 ResourceManager非堆内存使用百分比统计。 90% 垃圾回收 垃圾回收时间统计(GC) NodeManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 垃圾回收时间统计(GC) ResourceManager每分钟的垃圾回收(GC)所占用的时间。 12000ms 其他 root队列下失败的任务数 root队列下失败的任务数。 50 root队列下被杀死的任务数 root队列下被杀死的任务数。 50 CPU和内存 挂起的内存量 挂起的内存量。 83886080MB 任务 正在挂起的任务 正在挂起的任务。 60 ZooKeeper 连接 ZooKeeper连接数使用率 ZooKeeper连接数使用百分比统计。 80% CPU和内存 ZooKeeper堆内存使用率 ZooKeeper堆内存使用百分比统计。 95% ZooKeeper直接内存使用率 ZooKeeper直接内存使用百分比统计。 80% GC ZooKeeper每分钟的垃圾回收时间统计(GC) ZooKeeper每分钟的垃圾回收时间统计(GC)。 12000ms Ranger GC UserSync垃圾回收(GC)时间 UserSync垃圾回收(GC)时间。 12000ms RangerAdmin垃圾回收(GC)时间 RangerAdmin垃圾回收(GC)时间。 12000ms TagSync垃圾回收(GC)时间 TagSync垃圾回收(GC)时间。 12000ms CPU和内存 UserSync非堆内存使用率 UserSync非堆内存使用百分比统计。 80.0% UserSync直接内存使用率 UserSync直接内存使用百分比统计。 80.0% UserSync堆内存使用率 UserSync堆内存使用百分比统计。 95.0% RangerAdmin非堆内存使用率 RangerAdmin非堆内存使用百分比统计。 80.0% RangerAdmin堆内存使用率 RangerAdmin堆内存使用百分比统计。 95.0% RangerAdmin直接内存使用率 RangerAdmin直接内存使用百分比统计。 80.0% TagSync直接内存使用率 TagSync直接内存使用百分比统计。 80.0% TagSync非堆内存使用率 TagSync非堆内存使用百分比统计。 80.0% TagSync堆内存使用率 TagSync堆内存使用百分比统计。 95.0% ClickHouse 集群配额 Clickhouse服务在ZooKeeper的数量配额使用率 ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 90% Clickhouse服务在ZooKeeper的容量配额使用率 ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 90% IoTDB GC IoTDBServer垃圾回收时间 IoTDBServer垃圾回收所占用的时间 12000ms CPU和内存 IoTDBServer堆内存使用率 IoTDBServer堆内存使用百分比统计 90% IoTDBServer直接内存使用率 IoTDBServer直接内存使用百分比统计 90%
  • 操作场景 在集群中,管理员可从逻辑上对所有Yarn的节点进行分区,使多个NodeManager形成一个Yarn资源池。每个NodeManager只能属于一个资源池。管理员通过FusionInsight Manager添加一个自定义的资源池,并将未加入自定义资源池的主机加入此资源池,便于指定的队列利用这些计算资源。 系统中默认包含了一个名为“default”的资源池,所有未加入用户自定义资源池的NodeManager属于此资源池。
  • 参考信息 批量升级客户端前,需手动配置远程登录客户端节点的用户密码信息: 执行vi client-info.cfg命令,添加用户密码信息。 例如: clientIp,clientPath,user,password 10.10.10.100,/home/omm/client /home/omm/client2,omm,密码 配置文件各字段含义如下: clientIp:表示客户端所在节点IP地址。 clientPath:客户端安装路径,可以包含多个路径,以空格分隔多个路径。注意路径不要以“/”结尾。 user:节点用户名。 password:节点用户密码信息。 如果执行失败,请在执行目录的work_space/log_XXX下查看node.log日志。 配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。
  • 操作步骤 添加策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 defaults(default setting)表示如果一个用户未配置全局用户策略,则默认使用defaults所指定的策略。该策略不可删除。 单击“添加全局用户策略”,在弹出窗口中填写以下参数。 图1 全局用户策略 集群:选择需要操作的集群。(MRS 3.3.0及之后版本集群无该参数) 用户名:表示需要控制资源调度的用户,请输入当前集群中已存在用户的名称。 最大运行任务数:表示该用户在当前集群中能运行的最大任务数量。 最大挂起任务数:表示该用户在当前集群中能挂起的最大任务数量。 默认队列:表示用户的队列,请输入当前集群中已存在队列的名称。 修改策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 在指定用户策略所在行,单击“操作”列中的“修改”。 调整相关参数后,单击“确定”。 删除策略 在FusionInsight Manager,单击“租户资源”。 单击“动态资源计划”页签。 单击“全局用户策略”页签。 在指定用户策略所在行,单击“操作”列中的“删除”。 在弹出窗口单击“确定”。
  • 操作场景 部分角色实例以分布式并行工作的方式对外部业务提供服务,服务会单独保存每个实例是否可以使用的信息,所以需要使用FusionInsight Manager为这些实例执行入服或退服的操作,变更实例的业务可用状态方式。 不支持该此功能的实例,默认无法执行任务。 当前支持退服和入服操作的角色有:HDFS的DataNode、Yarn的NodeManager、HBase的RegionServer。 默认情况下,当DataNode数量少于或等于HDFS的副本数时,不能执行退服操作。若HDFS副本数为3时,则系统中少于4个DataNode,将无法执行退服,Manager在执行退服操作时会等待30分钟后报错并退出执行。 针对MRS 3.3.0及之后版本集群,用户也可以在DataNode退服前,开启快速退服功能,此时当DataNode数量满足“dfs.namenode.decommission.force.replication.min”参数设置的值时,可以执行退服,系统将同时执行退服和添加HDFS副本数的操作。快速退服期间如果有写入数据操作,可能导致数据丢失,请谨慎操作。快速退服相关参数如下,可以在Manager界面的HDFS服务参数全部配置页面搜索查看: dfs.namenode.decommission.force.enabled:是否开启DataNode快速退服特性。设置为“true”表示开启。 dfs.namenode.decommission.force.replication.min:DataNode快速退服特性场景下,Block满足退服条件的最小可用副本数量。取值范围1~3。 由于Mapreduce任务执行时,会生成一些副本数为10的文件,此时若DataNode实例数少于10时,将无法进行退服操作。 如果退服前,DataNode节点的机架数(机架数由各DataNode节点所配置的“机架”的名称数量决定)大于1;而退服部分DataNode后,剩余的DataNode节点的机架数变为1,则此次退服将会失败。所以需要在退服前评估退服操作对机架数的影响,以调整退服的DataNode节点。 在退服多个DataNode时,如果每个DataNode存储的数据量较大,如果执行选择多个DataNode同时退服,则很有可能会因超时而退服失败。为了避免这种情况,建议每次退服仅退服1个DataNode,进行多次退服操作。
  • 操作场景 MRS CA证书用于组件客户端与服务端在通信过程中加密数据,实现安全通信。该任务指导集群用户通过FusionInsight Manager完成CA证书替换工作,以确保产品安全使用。适用于以下场景: 首次安装好集群以后,需要更换企业证书。 企业证书有效时间已过期或安全性加强,需要更换为新的证书。 更换CA证书以后,MRS中HDFS、Yarn、MapReduce、HBase、Loader、Hue、Flink(MRS 3.2.0及以后版本)、Oozie、Hive、Tomcat、CAS、httpd和LDAP使用的证书将自动更新。 证书文件和密钥文件可向企业证书中心申请或由集群用户生成。 当前FusionInsight仅支持x.509格式证书导入,且必须是具有签发能力的CA证书。 当前FusionInsight要求OS的编码格式必须为“en_US.UTF-8”或“POSIX”,否则会造成证书功能异常。 若当前集群中有隔离的故障节点,则更换CA证书会跳过该节点。后续隔离节点取消隔离后,需要重装主机,以保证隔离节点和集群使用相同的CA证书。
  • 查询FusionInsight Manager版本号 通过查看FusionInsight Manager版本号,可以进行下一步的系统升级及日常维护操作。 界面方式 登录FusionInsight Manager,在主页界面,单击右上角的,在下拉框中单击“关于”,在弹框中查看FusionInsight Manager版本号。 图1 查看版本号 命令方式 以root用户登录FusionInsight Manager主OMS节点。 主OMS节点的IP地址信息可在FusionInsight Manager的“主机”页面中查看带有标志的主机信息。 执行如下命令,查看FusionInsight Manager的版本号及平台信息。 su - omm cd ${BIGDATA_HOME}/om-server/om/sbin/pack ./queryManager.sh 显示如下: Version Package Cputype *** FusionInsight_Manager_*** x86_64 ***表示版本号,具体以实际查询的版本号为准。 父主题: 主页
  • 请求示例 POST https://{endpoint}/v2/manage/namespaces/{namespace}/repositories/{repository}/access-domains { "access_domain" : "huawei", "permit" : "read", "deadline" : "2018-10-01T16:00:00.000Z", "description" : "description" }
  • URI POST /v2/manage/namespaces/{namespace}/repositories/{repository}/access-domains 表1 路径参数 参数 是否必选 参数类型 描述 namespace 是 String 组织名称。小写字母开头,后面跟小写字母、数字、小数点、下划线或中划线(其中下划线最多允许连续两个,小数点、下划线、中划线不能直接相连),小写字母或数字结尾,1-64个字符。 repository 是 String 镜像仓库名称
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 消息体的类型(格式),下方类型可任选其一使用: application/json;charset=utf-8 application/json 缺省值:application/json X-Auth-Token 是 String 用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 access_domain 是 String 共享租户名称 permit 是 String 当前只支持read权限 deadline 是 String 截止时间,UTC时间格式。永久有效为forever description 否 String 描述
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 消息体的类型(格式),下方类型可任选其一使用: application/json;charset=utf-8 application/json 缺省值:application/json X-Auth-Token 是 String 用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 [数组元素] 是 Array of strings 需要删除权限的用户id列表,需要从IAM服务获取
共100000条