华为云用户手册

  • 概述 使用TensorFlow框架创建训练作业的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用查询作业资源规格接口获取训练作业支持的资源规格。 调用查询作业引擎规格接口查看训练作业的引擎类型和版本。 调用创建训练作业接口创建一个训练作业。 调用查询训练作业版本详情接口根据训练作业的ID查询训练作业的创建详情。 调用获取训练作业日志的文件名接口获取训练作业日志的文件名。 调用查询训练作业日志接口查看训练作业的日志详情。 当训练作业使用完成或不再需要时,调用删除训练作业接口删除训练作业。
  • 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST https://{iam_endpoint}/v3/auth/tokens 请求消息头:Content-Type →application/json 请求Body: { "auth": { "identity": { "methods": ["password"], "password": { "user": { "name": "user_name", "password": "user_password", "domain": { "name": "domain_name" } } } }, "scope": { "project": { "name": "cn-north-1" } } }} 其中,加粗的斜体字段需要根据实际值填写: iam_endpoint为IAM的终端节点。 user_name为IAM用户名。 user_password为用户登录密码。 domain_name为用户所属的帐号名。 cn-north-1为项目名,代表服务的部署区域。 返回状态码“201 Created”,在响应Header中获取“X-Subject-Token”的值即为Token,如下所示: x-subject-token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 调用查询作业资源规格接口获取训练作业支持的资源规格。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/job/resource-specs?job_type=train 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: ma_endpoint为ModelArts的终端节点。 project_id为用户的项目ID。 “X-auth-Token”的值是上一步获取到的Token值。 返回状态码“200 OK”,响应Body如下所示: { "specs": [ ...... { "spec_id": 7, "core": "2", "cpu": "8", "gpu_num": 0, "gpu_type": "", "spec_code": "modelarts.vm.cpu.2u", "unit_num": 1, "max_num": 1, "storage": "", "interface_type": 1, "no_resource": false }, { "spec_id": 27, "core": "8", "cpu": "32", "gpu_num": 0, "gpu_type": "", "spec_code": "modelarts.vm.cpu.8u", "unit_num": 1, "max_num": 1, "storage": "", "interface_type": 1, "no_resource": false } ], "is_success": true, "spec_total_count": 5} 根据“spec_code”字段选择并记录创建训练作业时需要的规格类型,本章以“modelarts.vm.cpu.8u”为例,并记录“max_num”字段的值为“1”。 “no_resource”字段用于判断规格资源是否充足,“false”代表有资源。 调用查询作业引擎规格接口查看训练作业的引擎类型和版本。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/job/ai-engines?job_type=train 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”,响应Body如下所示: { "engines": [ { "engine_type": 13, "engine_name": "Ascend-Powered-Engine", "engine_id": 130, "engine_version": "TF-1.15-python3.7-aarch64" }, ...... { "engine_type": 1, "engine_name": "TensorFlow", "engine_id": 3, "engine_version": "TF-1.8.0-python2.7" }, { "engine_type": 1, "engine_name": "TensorFlow", "engine_id": 4, "engine_version": "TF-1.8.0-python3.6" }, ...... { "engine_type": 9, "engine_name": "XGBoost-Sklearn", "engine_id": 100, "engine_version": "XGBoost-0.80-Sklearn-0.18.1-python3.6" } ], "is_success": true} 根据“engine_name”和“engine_version”字段选择创建训练作业时需要的引擎规格,并记录对应的“engine_id”,本章以TensorFlow引擎为例创建作业,记录“engine_id”为“4”。 调用创建训练作业接口创建一个基于TensorFlow框架的名称为“jobtest_TF”的训练作业。 请求消息体: URI格式:POST https://{ma_endpoint}/v1/{project_id}/training-jobs 请求消息头: X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... Content-Type →application/json 请求Body: { "job_name": "jobtest_TF", "job_desc": "TF识别手写数字", "config": { "worker_server_num": 1, "parameter": [], "flavor": { "code": "modelarts.vm.cpu.8u" }, "train_url": "/test-modelarts/mnist-model/output/", "engine_id": 4, "app_url": "/test-modelarts/mnist-tensorflow-code/", "boot_file_url": "/test-modelarts/mnist-tensorflow-code/train_mnist_tf.py", "data_source": [ { "type": "obs", "data_url": "/test-modelarts/dataset-mnist/" } ] }, "notification": { "topic_urn": "", "events": [] }, "workspace_id": "0"} 其中,加粗的斜体字段需要根据实际值填写: “job_name”和“job_desc”填写训练作业的名称和描述。 “worker_server_num”和“code”填写2获取的“max_num”和“spec_code”的值。 “engine_id”填写3获取的引擎ID。 “train_url”填写训练作业的输出目录。 “app_url”和“boot_file_url”填写训练作业的代码目录和代码启动文件。 “data_url”填写训练作业使用的数据集目录。 返回状态码“200 OK”,表示训练作业创建成功,响应Body如下所示: { "version_name": "V0001", "job_name": "jobtest_TF", "create_time": 1609121837000, "job_id": 567524, "resource_id": "jobaedef089", "version_id": 1108482, "is_success": true, "status": 1} 记录“job_id”(训练作业的任务ID)和“version_id”(训练作业的版本ID)字段的值便于后续步骤使用。 “status”为“1”表示训练作业在初始化状态中。 调用查询训练作业版本详情接口根据训练作业的ID查询训练作业的创建详情。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: “job_id”为4记录的训练作业的任务ID。 “version_id”为4记录的训练作业的版本ID。 返回状态码“200 OK”,响应Body如下所示: { "dataset_name": null, "duration": 1326, "spec_code": "modelarts.vm.cpu.8u", "parameter": [], "start_time": 1609121913000, "model_outputs": [], "engine_name": "TensorFlow", "error_result": null, "gpu_type": "", "user_frame_image": null, "gpu": null, "dataset_id": null, "nas_mount_path": null, "task_summary": {}, "max_num": 1, "model_metric_list": "{}", "is_zombie": null, "flavor_code": "modelarts.vm.cpu.8u", "gpu_num": 0, "train_url": "/test-modelarts/mnist-model/output/", "engine_type": 1, "job_name": "jobtest_TF", "nas_type": "efs", "outputs": null, "job_id": 567524, "data_url": "/test-modelarts/dataset-mnist/", "log_url": null, "boot_file_url": "/test-modelarts/mnist-tensorflow-code/train_mnist_tf.py", "volumes": null, "dataset_version_id": null, "algorithm_id": null, "worker_server_num": 1, "pool_type": "SYSTEM_DEFINED", "autosearch_config": null, "job_desc": "TF识别手写数字", "inputs": null, "model_id": null, "dataset_version_name": null, "pool_name": "hec-train-pub-cpu", "engine_version": "TF-1.8.0-python3.6", "system_metric_list": { "recvBytesRate": [ "0", "0" ], "cpuUsage": [ "0", "0" ], "sendBytesRate": [ "0", "0" ], "memUsage": [ "0", "0" ], "gpuUtil": [ "0", "0" ], "gpuMemUsage": [ "0", "0" ], "interval": 1, "diskWriteRate": [ "0", "0" ], "diskReadRate": [ "0", "0" ] }, "retrain_model_id": null, "version_name": "V0001", "pod_version": "1.8.0-cp36", "engine_id": 4, "status": 10, "cpu": "32", "user_image_url": null, "spec_id": 27, "is_success": true, "storage": "", "nas_share_addr": null, "version_id": 1108482, "no_resource": false, "user_command": null, "resource_id": "jobaedef089", "core": "8", "npu_info": null, "app_url": "/test-modelarts/mnist-tensorflow-code/", "data_source": [ { "type": "obs", "data_url": "/test-modelarts/dataset-mnist/" } ], "pre_version_id": null, "create_time": 1609121837000, "job_type": 1, "pool_id": "pool7d1e384a"} 根据响应可以了解训练作业的版本详情,其中“status”为“10”表示训练作业已经运行成功。 调用获取训练作业日志的文件名接口获取训练作业日志的文件名。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”,响应Body如下所示: { "is_success": true, "log_file_list": [ "job-jobtest-tf.0" ]} 表示只存在一个名称为“job-jobtest-tf.0”的日志文件。 调用查询训练作业日志向下查询8行训练作业日志文件的详细信息。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log?log_file=job-jobtest-tf.0&lines=8&order=desc 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: “log_file”填写6获取的日志文件名。 “lines”填写需要获取的日志长度。 “order”填写日志查询方向。 返回状态码“200 OK”,响应Body如下所示: { "start_line": "1609121886518240330", "lines": 8, "is_success": true, "end_line": "1609121900042593083", "content": "Done exporting!\n\n[Modelarts Service Log]Training completed.\n\n[ModelArts Service Log]modelarts-pipe: will create log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: will create log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: will write log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: param for max log length: 1073741824\n\n[ModelArts Service Log]modelarts-pipe: param for whether exit on overflow: 0\n\n[ModelArts Service Log]modelarts-pipe: total length: 23303\n"} 当训练作业使用完成或不再需要时,调用删除训练作业接口删除训练作业。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id} 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”表示作业删除成功,响应示例如下: { "is_success": true}
  • 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目名称和ID、获取帐号名和ID和获取用户名和ID。 已准备好TensorFlow框架的训练代码,例如将启动文件“train_mnist_tf.py”存放在OBS的“/test-modelarts/mnist-tensorflow-code/”目录下。 已经准备好训练作业的数据集,例如将训练数据集存放在OBS的“/test-modelarts/dataset-mnist/”目录下。 已经创建好训练作业的输出位置,例如“/test-modelarts/mnist-model/output/”。
  • 注意事项 您最多可创建1000条阈值规则,如果阈值规则数量已达上限1000条时,请删除不需要的阈值规则后重新创建。 设置通知策略 阈值规则的状态(正常、超限阈值、数据不足)发生变化时,如需使用邮件或短信等方式发送通知,请参考下面操作在SMN界面设置通知策略。如不需接收邮件或短信通知,请跳过下面操作。具体操作如下: 创建一个主题,操作详见创建主题。 设置主题策略,操作详见设置主题策略。 设置主题策略时,“可发布消息的服务”必须选择“APM”,否则会导致通知发送失败。 为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详见订阅主题。
  • 什么是映射 AOM中的日志实际上是以一个日志流的形式在LTS中存在(如图1中的AOM日志流所示),AOM可以查询已配置采集路径的原始日志,但当前AOM的日志流无法在LTS控制台查看。您可以通过在AOM控制台添加接入规则来创建映射,映射创建后,即可通过LTS查看和分析AOM日志。 图1 未创建映射 创建日志流A并创建接入规则后,即已创建AOM至LTS的映射,最新的AOM日志将上报至日志流A,AOM可以查看映射前后所有的日志数据,日志流A不会复制或移动原AOM日志流中的历史数据,如图2所示。 图2 已创建映射
  • 添加自定义标签字段 添加自定义标签字功能目前仅在华东-上海一开放。 通过添加自定义标签,用户可以在日志页面上查看到自定义标签,如果将aom日志接入lts后,可以通过该自定义标签关键字进行日志搜索。 编辑yaml:通过在工作负载的yaml中spec:template:metadata:annotations:下增加以下字段来实现 kubernetes.AOM.log.relabel: '{"key1":"value1", "key2":"value2"} 自定义标签限制如下: 最多可设置16组“key:value”字段。 key或value的参数值最多不超过64个字符。 自定义标签不区分大小写,且不能与默认的标签重复。例如,默认标签为“po”,则自定义标签不能为“PO”、“Po”或“pO”。 默认标签如下: "podName", "appName", "containerName", "clusterId","clusterName", "serverlessPkg", "serverlessFunc", "projectId", "serviceID","nameSpace", "pid", "hostId", "hostName", "hostIP", "hostIPv6" 父主题: 容器日志采集配置
  • ICAgent版本说明 表1 ICAgent版本说明 版本号 说明 5.12.135 解决CPU使用率为0的问题 解决CCE1.23版本集群containerd节点容器网络指标缺失问题 支持采集EulerOS 2.5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集。 5.12.130 支持将CCE日志直接接入LTS。 5.12.120 增加进程的最大句柄数指标。 支持LTS的podlb域名的切换能力。 5.12.111 新增线程指标、修复“获取lvs磁盘分区指标失败”问题。 5.12.100 上报内存指标增加内存workingset使用量、内存workingset使用率 容器采集支持通过标签区分stderr.log和stdout.log 容器上报增加Pod_ip的tag **配置匹配当前目录文件 5.12.98 增加LTS日志黑名单功能,更改容器指标来源为working_set 5.12.96 新增云资源发现类型 5.12.90 更新gpu指标来源 5.12.87 新增磁盘支持类型 5.12.75 适配安全容器场景 父主题: 资源接入AOM
  • 标准输出配置 通过添加指定采集容器标准输出标签,用户可以指定采集pod下的对应容器名的标准输出日志。用户在pod的yaml中spec:template:metadata:annotations:字段增加以下字段来实现指定要采集的容器名称。 kubernetes.AOM.log.stdout: '["container_name0", "container_name1"]' 规则如下: 如果没有kubernetes.AOM.log.stdout:字段,默认采集该pod下全部容器的标准输出日志,兼容原有场景。 如果存在该字段,值为空,即kubernetes.AOM.log.stdout: '[]'则不采集该pod下容器的标准输出日志。 示例: spec: replicas: 1 selector: matchLabels: app: als729 version: v1 template: metadata: creationTimestamp: null labels: app: als729 version: v1 annotations: kubernetes.AOM.log.relabel: '{"key1":"value1","key2":"value2","key3":"value3","key4":"value4","key5":"value5","key6":"value6","key7":"value7","key8":"value8","key9":"value9","key10":"value10","key11":"value11","key12":"value12","key13":"value13","key14":"value14","key15":"value16"}' kubernetes.AOM.log.stdout: '["container-0","container_name1"]' 父主题: 容器日志采集配置
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片断 package metrictype MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"`}type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"`}type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"`}type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"`}type Dimension struct { Name string `json:"name"` Value string `json:"value"`} kafka消息示例 key:,value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131"} 参数说明: 表4 告警参数 参数 参数类型 描述 events Array ofobjects,详见 表5。 事件或者告警详情。 project_id String 租户从IAM申请到的projectid,一般为32位字符串。 表5 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间,CST毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String; event_severity:事件级别枚举值。类型为String,四种类型 "Critical", "Major", "Minor", "Info"; event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件; resource_provider:事件对应云服务名称。类型为String; resource_type:事件对应资源类型。类型为String; resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 更多操作 告警行动规则创建完成后,您还可以执行表2中的相关操作。 表2 相关操作 操作 说明 编辑告警行动规则 单击“操作”列的“编辑”。 删除告警行动规则 删除单条规则:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条规则:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 说明: 删除告警行动规则前需要先删除该行动规则绑定的告警规则。 搜索告警行动规则 在右上角的搜索框中输入规则名称关键字,单击后显示匹配对象。
  • 概述 本功能当前在华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域开放,如有需求可以通过提交工单,联系工程师为您开放此功能。 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000, "ends_at" : 1579420868000, "timeout" : 60000, "resource_group_id" : "5680587ab6*******755c543c1f", "metadata" : { "event_name" : "test", "event_severity" : "Major", "event_type" : "alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签 }, "annotations" : { "alarm_probableCause_zh_cn" : "可能原因", "alarm_fix_suggestion_zh_cn" : "修复建议" }} 父主题: 告警降噪
  • 概述 接入管理提供监控数据上报的网络通道建立和解除,以及监控数据上报使用的认证凭据生成和吊销等功能,帮助您快速的将监控数据接入到AOM。 本功能当前开放区域为:华北-北京一、华北-北京二、华东-上海一、华南-广州、中国-香港、亚太-新加坡,华东-上海二,华北-北京四,西南-贵阳一,乌兰察布一,其他区域暂未开放,敬请期待。 您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来查询AOM中的数据,参见通过grafana查看AOM中的指标数据,AOM支持以下原生Prometheus的API: 查询普罗(Prometheus)接口URL: GET /v1/:project_id/api/v1/query GET /v1/:project_id/api/v1/query_range GET /v1/:project_id/api/v1/labels GET /v1/:project_id/api/v1/label/:label_name/values POST /v1/:project_id/api/v1/query POST /v1/:project_id/api/v1/query_range POST /v1/:project_id/api/v1/labels 调用以上API接口时,在请求header的Authorization字段加access_code。 示例:"Authorization: Bearer {access_code}" 或者 "Authorization: Basic base64Encode("aom_access_code:{access_code}")" 上报时序数据接口:POST /v1/:project_id/push base64Encode指的是将参数进行base64编码。 父主题: 接入管理
  • 更多操作 消息模板创建完成后,您还可以对消息模板列表执行表2中的相关操作。 表2 相关操作 操作 说明 编辑消息模板 单击“操作”列的“编辑”。 复制消息模板 单击“操作”列的“复制”。 删除消息模板 删除单条消息模板:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条消息模板:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 说明: 删除消息模板前需要先删除消息模板绑定的告警行动规则。 搜索消息模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。
  • Agent包下载配置 表1 Agent包下载配置 区域 Agent包下载地址 SHA-256 华北-北京一 http://icagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-北京四 http://icagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华北-北京二 http://icagent-cn-north-2.obs.cn-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-乌兰察布一 http://icagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 9426da2f8a60d54ab33aa9057c2100237b6781bf02ab9cbe0bc7849fa2a2c1f2 华东-上海一 http://icagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华东-上海二 http://icagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华南-广州 http://icagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华南-广州-友好用户环境 http://icagent-cn-south-4.obs.cn-south-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 85d2ea6a7ccc6a2fccd130ecda02cb191a95524d097c7137856e9392498b9256 西南-贵阳一 http://icagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 中国-香港 http://icagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-曼谷 http://icagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-新加坡 http://icagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 非洲-约翰内斯堡 http://icagent-af-south-1.obs.af-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 拉美-墨西哥城一 http://icagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 1743365593a3d5a5704d070a645de3eaaa3b2f621967e2132d31dfc23f943d01 拉美-墨西哥城二 http://icagent-la-north-2.obs.la-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 509da7ad5405254d317645e6ff6da65be74ee7f08bd447d1cefc7ed192f676fd 拉美-圣保罗一 http://icagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz c7b149e28795abbec906a650ed7e166a6839726ffc0873ecb3ebfee0048c0dc9 拉美-圣地亚哥 http://icagent-la-south-2.obs.la-south-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 023c83d91102ffc08b9a4500583c785e3905ccd3eb082f7326269a625fb8a6d2 父主题: 参考信息
  • 云审计服务支持的AOM操作列表 AOM为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。 AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、kubernetes等应用运行环境的深入监控并进行集中统一的可视化管理,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。同时,AOM开放统一API,支撑对接自研监控系统或者报表系统。AOM并非传统监控,它通过应用的角度看业务,满足企业对业务的高效和快速迭代的需求,可帮助企业实现 IT 对业务的有效支撑,保护、优化IT资产投资,使企业更好的达到其战略目标并实现IT资产价值的最大化。通过云审计服务,您可以记录与AOM服务相关的操作事件,便于日后的查询、审计和回溯。 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 操作名称 资源类型 事件名称 创建仪表盘 ams add-view-action 修改仪表盘 ams update-view-action 删除仪表盘 ams deleteDashboard 创建阈值 ams addThreshold 修改阈值 ams updateThreshold 删除阈值 ams deleteThreshold 删除订阅规则 apminventory deleteSubscribeRule 修改订阅规则名称 apminventory updateSubscribeName 创建订阅规则 apminventory createSubscribeRule 开启按需版 OpenOrCloseProService openProBillingService 关闭按需版 OpenOrCloseProService closeProBillingService 删除一条阈值规则 threshold_rules_v2 deleteOneAlarmById 批量删除阈值规则 threshold_rules_v2 deleteAlarmRules 修改阈值规则 threshold_rules_v2 updateAlarm 创建阈值规则 threshold_rules_v2 addAlarmForDT 修改事件类告警规则 event2alarm_rule updateEvent2AlarmRule 创建事件类告警规则 event2alarm_rule addEvent2AlarmRule 删除事件类告警规则 event2alarm_rule deleteEvent2AlarmRule 安装采集器 icmgr icagentInstall 升级采集器 icmgr icagentUpgrade 升级探针 icmgr pinPointUpgrade 卸载采集器 icmgr IcagentUninstall 指标和日志采集开关 icmgr metricAndLogSwitches 创建接入码 icmgr icmgrAddAccessCode 删除接入码 icmgr icmgrDelAccessCode 下发配置事件 icmgr webIcAgentEvent 清除告警 pushEvents clearEvents 创建告警行动规则 actionRule addActionRule 修改告警行动规则 actionRule updateActionRule 删除告警行动规则 actionRule delActionRule 创建消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 创建分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 创建抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 创建静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 创建或修改应用发现规则 apminventory addOrUpdateAppRules 删除应用发现规则 apminventory deleteAppRules 修改应用/主机/组件的别名/标签 apminventory updateInventoryTag 创建策略组 pe createPolicyGroup 删除策略组 pe deletePolicyGroup 更新策略组 pe updatePolicyGroup 启用策略组 pe enablePolicyGroup 停用策略组 pe disablePolicyGroup 创建策略 pe createPolicy 删除策略 pe deletePolicy 更新策略 pe updatePolicy 启用策略 pe enablePolicy 停用策略 pe disablePolicy 更新老化周期 als updateLogStorgeSetting 父主题: 云审计服务支持的关键操作
  • 告警标签特征 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key 和value只能由字母、数字和下划线组成,且不能以下划线开头,您最多可创建10个自定义标签。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。
  • AOM自定义策略样例 示例1:授权用户创建阈值规则的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:alarmRule:create" ] } ]} 示例2:拒绝用户删除应用发现规则 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予AOM FullAccess的系统策略,但不希望用户拥有AOM FullAccess中定义的删除应用发现规则权限,您可以创建一条拒绝删除应用发现规则的自定义策略,然后同时将AOM FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对AOM执行除了删除应用发现规则外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "aom:discoveryRule:delete" ] } ]} 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:*:list", "aom:*:get", "apm:*:list", "apm:*:get" ] }, { "Effect": "Allow", "Action": [ "cce:cluster:get", "cce:cluster:list", "cce:node:get", "cce:node:list" ] } ]}
  • 创建资源分组 在左侧导航栏中选择“资源分组”,可查看资源分组的信息。 单击右上角的“创建资源分组”。 根据界面提示配置参数,具体如表1所示。 表1 配置参数 参数 说明 示例 分组名称 输入分组名称。 AOM 企业项目 选择企业项目,若没有企业项目,需要单击“创建企业项目”创建企业项目。 default 描述 输入描述信息。 - 组标签 输入标签键和标签值。 说明: 最多可添加10个组标签。 - 资源列表 添加资源 单击“添加资源”,可以添加资源。 - 资源添加方式 根据实际需求,选择“动态资源”或“指定资源”。 如果您需要删除添加的全部资源,可在资源添加方式右侧,单击删除。 动态资源 资源匹配规则 根据界面提示,选择所需的资源匹配规则。 如果您需要配置多条规则,可单击“添加规则”。 如果您需要删除单条资源匹配规则,可单击。 说明: 资源添加方式选择“动态资源”才会显示。 最多可以添加100条资源匹配规则。 - 资源类型 根据实际选择资源类型:集群、主机、应用、组件、实例、进程和容器。 说明: 资源添加方式选择“指定资源”才会显示。 集群 资源名称 展示勾选的资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 资源列表 勾选资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 参数配置后,单击“确定”。
  • 更多统计规则操作 创建完统计规则后,您还可以执行更多统计规则操作中的操作。 表1 相关操作 操作 说明 查看统计规则 在“规则名称”列单击统计规则名称,查看统计规则的详细信息。 查看阈值规则 “阈值规则”列展示了该统计规则生成的指标关联的所有阈值规则,多个阈值规则间使用空格分割。 单击阈值规则名称,跳转到阈值规则界面,可查看该阈值规则的详细信息。 添加阈值规则 单击“操作”列的“添加阈值规则”,对统计规则生成的指标添加阈值规则,当满足阈值条件时产生阈值告警,以便能在第一时间发现异常并进行处理。 修改统计规则 单击“操作”列的“编辑”。 删除统计规则 删除一个统计规则:单击“操作”列的“删除”。 删除一个或多个统计规则:选中一个或多个统计规则前的复选框,单击页面上方的“删除”。 说明: 删除统计规则后,您的日志桶、日志文件均不会被删除。
  • 更多事件类告警规则操作 事件类告警规则创建完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 修改事件类告警规则 单击“操作”列的“修改”。 删除事件类告警规则 删除一个事件类告警规则:单击“操作”列的“删除”。 删除一个或多个事件类告警规则:选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“删除”。 迁移事件类告警规则 选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“一键迁移至2.0”,可将选中的事件类告警规则批量迁移至AOM 2.0。 须知: 迁移操作无法恢复,请谨慎操作。 启、停事件类告警规则 单击“操作”列的“启用”或“停用”。 搜索事件类告警规则 支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。
  • 健康状态类图表(包括阈值状态、主机状态、组件状态图表) 支持阈值、主机、组件状态的展示。可将关注的一个或多个阈值规则、主机或组件的状态信息分别置于同一图表中进行监控。 阈值状态图表:实时监控阈值规则的状态。 图3 阈值状态图表 添加阈值状态图表前请先创建阈值规则,否则将无法添加阈值状态图表。 主机状态图表:实时监控主机的状态。 图4 主机状态图表 组件状态图表:实时监控组件的状态。 图5 组件状态图表
  • 更多仪表盘操作 仪表盘创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作对象 操作 说明 仪表盘 另存为 保存仪表盘后,通过页面右侧的“更多”下拉列表框,可另存、重命名或删除仪表盘。 重命名 删除 导出监控报告 单击“导出监控报告”,可将仪表盘中的曲线图以CSV格式导出,以便进行本地存储及进一步分析。 设置全屏模式在线时长 选择待操作的仪表盘,在“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。 图8 设置在线时长 说明: 自定义在线时长:默认在线时长为1小时,您可在文本框中输入1~24小时。 例如,在文本框中输入2,则2小时后自动退出到登录界面。 保持在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。 轮播周期:开启仪表盘轮播才需设置对应的“轮播周期”和“仪表盘”信息。取值范围:10~120秒,默认轮播周期为10秒。 单击“确认”,进入仪表盘全屏模式。 设置插值方式 单击“插值方式”,将指标数据按照所设置的插值方式进行聚合。当指标图表出现断点时,AOM默认使用null(即空值)表示断点。当您需要使用指标图表做汇报或展示时,出现断点的指标图表不太美观,您可通过切换插值为0或null的方式,对缺失的指标数据进行断点插值,进而规避掉断点。 插值方式您可以选择null、0。 null:默认设置,断点处使用空值表示。如下图所示: 图9 插值方式为null 0 :断点处使用0表示。如下图所示: 图10 插值方式为0 图表 添加 单击“添加指标图表”,可在仪表盘中添加曲线图、数字图、阈值状态图表、主机状态图表、组件状态图表。 编辑 通过图表右上角的“操作”下拉列表框,可对图表进行编辑、复制、删除、放大(仅可放大曲线图)等操作。其中“时间选择”按钮仅在曲线图中存在,通过该按钮您可以设置临时的时间范围和统计周期,方便您查看某一时间范围的资源数据。 图11 图表操作 说明: 当主机、组件等资源被删除后,在仪表盘中针对这些资源创建的图表不会自动删除,为提高系统性能,您需要手动删除不需要的图表。 复制 删除 放大 时间选择 刷新 调整大小 将鼠标指针移至图表右下角,当鼠标指针变为时按住鼠标左键并进行拖动。 调整位置 在图表上方或下方的空白区域按住鼠标左键拖动至目标位置。
  • 资源TopN图表 资源TopN图表的统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,支持资源Top5、Top15数据的汇报展示,其中默认展示资源Top5,放大图表后展示资源Top15。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AOM将自动将TopN的主机挑选出来展示,如果不超过N个资源,则按照实际资源展示。如下图所示,展示了主机CPU使用率Top5: 图6 资源TopN图表 默认展示资源Top5图表,通过单击“显示Top15”、在图表任意处双击或在“操作”列选择“放大”,均可查看资源Top15图表。 如果您需监控所有集群下的所有资源的Top5数据,可在“监控概览”界面查看,也可将“监控概览”界面的资源Top5数据添加到仪表盘。 资源TopN图表的标题支持您自定义,标题默认命名为资源类型(集群名称)。
  • 概述 该功能对华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域生效。 通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 告警规则分为阈值规则和事件类告警规则两种。通常情况下,通过阈值规则,实时监控环境中主机、组件等资源使用情况。当资源使用告警过多,告警通知过于频繁时,通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。 父主题: 告警规则(新版)
  • 监控IoTDA服务 单击IoTDA服务名称,可在右侧区域查看当前用户IOTDA服务下全部实例及全部实例的资源空间。 监控IoTDA服务某一实例: 单击任一实例名称,然后单击“仪表盘”页签,可查看当前实例下需要重点关注的关键资源或指标。 单击任一实例名称,然后单击“指标”页签,可查看当前实例下IOTDA上报的全量指标数据曲线。 单击任一实例名称,然后单击“资源空间”页签,可查看当前实例下的资源空间。
  • 更多静态阈值模板操作 静态阈值模板创建完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 使用静态阈值模板创建一条批量阈值规则 单击“操作”列的“创建规则”,操作详见使用模板创建阈值规则。 修改静态阈值模板 单击“操作”列的“编辑”。 删除静态阈值模板 删除一个静态阈值模板:单击“操作”列的“删除”。 删除一个或多个静态阈值模板:选中一个或多个静态阈值模板前的复选框,单击页面上方的“删除”。 搜索静态阈值模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。
  • 注意事项 若日志采集路径配置的是目录,则默认采集目录下的日志(只采集*.log、*.trace和*.out类型的文本日志文件);若配置的为具体某个文件,则直接采集该文件。指定文件必须为文本类型文件,不支持其他类型(例如二进制日志文件)的日志文件。 请确保配置的路径是日志目录或文件的绝对路径,且该路径是实际存在的。例如,/opt/yilu/work/xig或/opt/yilu/work/xig/debug_cpu.log。 ICAgent不支持采集下级目录的日志文件。例如,/opt/yilu/work/xig的下级目录为/opt/yilu/work/xig/debug,则ICAgent不采集/opt/yilu/work/xig/debug中的日志文件。 一个虚机最多可配置20条日志采集路径。 若配置的日志文件的最后修改时间和当前时间的时间差已超过12小时,则不会采集。 同一资源集下的所有ECS主机,无法同时使用AOM和LTS的日志采集功能,只能匹配系统中最新的日志采集配置。例如,当前在AOM中配置了ECS主机的日志采集路径,则之前在该资源集下,LTS中所有ECS主机的采集配置都失效。
  • 应用监控卡片 图2 应用监控 此卡片主要展示应用监控的指标数据。 应用、组件、容器和实例的运行状态。 选择一个应用,可呈现该应用的如下信息: 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所选应用的接收Bps、发送Bps。趋势图上方的值为最新时间点所选应用的接收Bps、发送Bps。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所选应用的CPU使用率以及内存使用率。趋势图上方的值为最新时间点所选应用的CPU使用率和内存使用率。
  • 更多监控概览界面操作 您还可以执行表1中的操作。 表1 相关操作 操作 说明 将卡片移至收藏夹 如果不需要关注某个卡片时,可单击卡片右上角的并选择“移至收藏夹”。卡片移至收藏夹后将在“监控概览”界面隐藏。若后续又需使用时,您可从收藏夹中快速获取。 将卡片添加到仪表盘 可单击卡片右上角的并选择“添加至仪表盘”。 放大指标图表 单击指标图表右上角的。 蓝色字体下钻 单击界面中的“主机”“应用”、“组件”等蓝色字体可下钻到具体详情页面,查看更详细的数据。
  • 基础设施监控卡片 图1 基础设施监控 此卡片主要展示基础设施的指标数据。可通过选择集群,呈现某一个集群或者所有集群中的信息。如图选择所有集群,即该基础设施监控卡片呈现所有集群的如下信息: 主机运行状态,CPU、物理内存的使用量。 近30分钟网络流量数据的趋势图,趋势图每1分钟一个点,趋势图每一个点的值表示1分钟内所有集群的接收Bps之和、发送Bps之和。趋势图上方的值为最新时间点所有集群的接收Bps之和、发送Bps之和。 近30分钟CPU及内存使用率数据的趋势图,趋势图的每一个点分别表示1分钟内所有集群的CPU使用率的平均值以及所有集群的内存使用率的平均值。趋势图上方的值为最新时间点所有集群的CPU使用率的平均值和所有集群的内存使用率的平均值。
共100000条