华为云用户手册

  • 响应示例 状态码: 400 Bad Request { "error_code" : "APIG.2011", "error_msg" : "Invalid parameter value,parameterName:id. Please refer to the support documentation"} 状态码: 401 Unauthorized { "error_code" : "APIG.1002", "error_msg" : "Incorrect token or token resolution failed"} 状态码: 403 Forbidden { "error_code" : "APIG.1005", "error_msg" : "No permissions to request this method"} 状态码: 404 Not Found { "error_code" : "APIG.3081", "error_msg" : "authorizer with id: 0d982c1ac3da493dae47627b6439fc5c not found"} 状态码: 500 Internal Server Error { "error_code" : "APIG.9999", "error_msg" : "System error"}
  • 响应参数 状态码: 400 表3 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 401 表4 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 403 表5 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 404 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 500 表7 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述
  • 响应示例 状态码: 200 OK { "update_time" : "2020-07-31T06:55:55Z", "name" : "api_group_001", "on_sell_status" : 2, "remark" : "group1", "sl_domains" : [ "c77f5e81d9cb4424bf704ef2b0ac7600.apic.****.com", "c77f5e81d9cb4424bf704ef2b0ac7600.apic.****.cn" ], "sl_domain" : "c77f5e81d9cb4424bf704ef2b0ac7600.apic.****.com", "id" : "c77f5e81d9cb4424bf704ef2b0ac7600", "register_time" : "2020-07-31T06:55:55Z", "status" : 1, "is_default" : 2, "version" : "V1"} 状态码: 400 Bad Request { "error_code" : "APIG.2011", "error_msg" : "Invalid parameter value,parameterName:instance_id. Please refer to the support documentation"} 状态码: 401 Unauthorized { "error_code" : "APIG.1002", "error_msg" : "Incorrect token or token resolution failed"} 状态码: 403 Forbidden { "error_code" : "APIG.1005", "error_msg" : "No permissions to request this method"} 状态码: 404 Not Found { "error_code" : "APIG.3001", "error_msg" : "API group c77f5e81d9cb4424bf704ef2b0ac7600 does not exist"} 状态码: 500 Internal Server Error { "error_code" : "APIG.9999", "error_msg" : "System error"}
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 id String 编号 name String API分组名称 status Integer 状态 1: 有效 2: 锁定 sl_domain String 系统默认分配的子域名 register_time String 创建时间 update_time String 最近修改时间 on_sell_status Integer 是否已上架云市场: 1:已上架 2:未上架 3:审核中 ROMA Connect暂未对接云市场,此字段默认返回2 url_domains Array of UrlDomain objects 分组上绑定的独立域名列表 sl_domains Array of strings 系统默认分配的子域名列表 remark String 描述 call_limits Integer 流控时长内分组下的API的总访问次数限制,默认不限,请根据服务的负载能力自行设置 暂不支持 time_interval Integer 流控时长 暂不支持 time_unit String 流控的时间单位 暂不支持 is_default Integer 是否为默认分组 version String 分组版本 V1:全局分组 V2:应用级分组 roma_app_id String 分组归属的集成应用编号。 分组版本V2时必填。 roma_app_name String 分组归属的集成应用名称 表4 UrlDomain 参数 参数类型 描述 id String 域名编号 domain String 访问域名 cname_status Integer 域名cname状态: 1:未解析 2:解析中 3:解析成功 4:解析失败 ssl_id String SSL证书编号 ssl_name String SSL证书名称 min_ssl_version String 最小ssl协议版本号。支持TLSv1.1或TLSv1.2 缺省值:TLSv1.1 verified_client_certificate_enabled Boolean 是否开启客户端证书校验。只有绑定证书时,该参数才生效。当绑定证书存在trusted_root_ca时,默认开启;当绑定证书不存在trusted_root_ca时,默认关闭。 缺省值:false is_has_trusted_root_ca Boolean 是否存在信任的根证书CA。当绑定证书存在trusted_root_ca时为true。 缺省值:false ssl_infos Array of SslInfo objects SSL证书列表 暂不支持 表5 SslInfo 参数 参数类型 描述 ssl_id String SSL证书编号 ssl_name String SSL证书名称 algorithm_type String 证书算法类型: RSA ECC SM2 暂不支持 type String 证书可见范围: instance:当前实例 global:全局 缺省值:global 状态码: 400 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 401 表7 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 403 表8 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 500 表9 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述
  • 响应参数 状态码: 200 表8 响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 删除标签响应体。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表9 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败
  • 响应参数 状态码: 200 表7 响应Body参数 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 更新标签响应体。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败 表8 BatchResponse 参数 参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 success Boolean 操作是否执行成功。可选值如下: true:执行成功 false:执行失败
  • 请求示例 创建导入(从OBS导入)任务 { "import_type" : "dir", "import_path" : "s3://test-obs/daoLu_images/animals/", "included_labels" : [ ], "import_annotations" : false, "difficult_only" : false} 创建导入(从Manifest导入)任务 { "import_type" : "manifest", "import_path" : "s3://test-obs/classify/output/dataset-f9e8-gfghHSokody6AJigS5A/annotation/V002/V002.manifest", "included_labels" : [ "rabbits", "bees", "Rabbits", "Bees" ], "import_annotations" : true, "difficult_only" : false}
  • 响应示例 状态码: 200 OK { "total_number" : 2, "labels" : [ { "name" : "Rabbits", "type" : 1, "property" : { "@modelarts:color" : "#3399ff" } }, { "name" : "Bees", "type" : 1, "property" : { "@modelarts:color" : "#3399ff" } } ]}
  • 开发环境权限(旧版) 表1 开发环境细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建开发环境实例 POST /v1/{project_id}/demanager/instances modelarts:notebook:create obs:bucket:CreateBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets obs:bucket:HeadBucket obs:object:GetObject obs:object:PutObject obs:object:DeleteObject √ √ 查询开发环境实例列表 GET /v1/{project_id}/demanager/instances modelarts:notebook:list - √ √ 查询开发环境实例详情 GET /v1/{project_id}/demanager/instances/{instance_id} modelarts:notebook:get - √ √ 更新开发环境实例信息 PUT /v1/{project_id}/demanager/instances/{instance_id} modelarts:notebook:update - √ √ 删除开发环境实例 DELETE /v1/{project_id}/demanager/instances/{instance_id} modelarts:notebook:delete - √ √ 启停开发环境实例 POST /v1/{project_id}/demanager/instances/{instance_id}/action modelarts:notebook:action obs:bucket:CreateBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets obs:bucket:HeadBucket obs:object:GetObject obs:object:PutObject obs:object:DeleteObject √ √ 父主题: 权限策略和授权项
  • 训练作业权限(旧版) 表1 训练管理(旧版)细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建训练作业 POST /v1/{project_id}/training-jobs modelarts:trainJob:create obs:bucket:HeadBucket obs:bucket:ListBucket obs:object:GetObjectAcl obs:object:GetObjectVersionAcl obs:bucket:ListBucketVersions obs:bucket:PutBucketAcl obs:bucket:ListAllMyBuckets √ √ 查看训练作业 GET /v1/{project_id}/training-jobs modelarts:trainJob:list - √ √ 删除训练作业 DELETE /v1/{project_id}/training-jobs/{job_id} modelarts:trainJob:delete - √ √ 更新训练作业描述 PUT /v1/{project_id}/training-jobs/{job_id} modelarts:trainJob:update - √ √ 创建训练作业版本 POST /v1/{project_id}/training-jobs/{job_id}versions modelarts:trainJobVersion:create obs:bucket:HeadBucket obs:bucket:ListBucket obs:object:GetObject obs:object:GetObjectVersionAcl obs:bucket:ListBucketVersions obs:bucket:PutBucketAcl obs:bucket:ListAllMyBuckets √ √ 删除训练作业版本 DELETE /v1/{project_id/training-jobs/{job_id}/versions/{version_id} modelarts:trainJobVersion:delete - √ √ 停止训练作业版本 POST /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/stop modelarts:trainJobVersion:stop - √ √ 查询训练作业版本列表 GET /v1/{project_id}/training-jobs/{job_id}/versions modelarts:trainJobVersion:list - √ √ 查看训练作业版本 GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} modelarts:trainJobVersion:list - √ √ 获取训练作业日志的文件名 GET /v1/{project_id}/training-jobs/{job_id}/versopns/{version_id}/log/file-names modelarts:trainJobLog:list - √ √ 查询训练作业日志(旧) GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log modelarts:trainJobLog:list - √ √ 查询训练作业日志(新) GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log modelarts:trainJobLog:list - √ √ 查看预置算法 GET /v1/{project_id}/built-in-algorithms modelarts:trainJobInnerModel:list - √ √ 查询作业的单个容器的监控 GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/pod/{pod_name}/metric-statistic - - √ √ 创建训练作业参数 POST /v1/{project_id}/training-job-configs modelarts:trainConfig:create obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets √ √ 查看训练作业参数列表 GET /v1/{project_id}/training-job-configs modelarts:trainConfig:list - √ √ 更新训练作业参数 PUT /v1/{project_id}/training-job-configs/{config_name} modelarts:trainConfig:update obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets √ √ 查询训练作业参数详情 GET /v1/{project_id}/training-job-configs/{config_name} modelarts:trainConfig:get - √ √ 删除训练作业参数 DELETE /v1/{project_id}/training-job-configs modelarts:trainConfig:delete - √ √ 创建可视化作业 POST /v1/{project_id}/visualization-jobs modelarts:tensorboard:create obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets √ √ 获取可视化作业列表 GET /v1/{project_id}/visualization-jobs modelarts:tensorboard:list - √ √ 删除可视化作业 DELETE /v1/{project_id}/visualization-jobs/{job_id} modelarts:tensorboard:delete - √ √ 更新可视化作业描述 PUT /v1/{project_id}/visualization-jobs/{job_id} modelarts:tensorboard:update - √ √ 查询可视化作业详情 GET /v1/{project_id}/visualization-jobs/{job_id} modelarts:tensorboard:get - √ √ 重启可视化作业 POST /v1/{project_id}/visualization-jobs/{job_id}/restart modelarts:tensorboard:restart obs:bucket:HeadBucket obs:bucket:ListBucket obs:bucket:ListAllMyBuckets √ √ 停止可视化作业 POST /v1/{project_id}/visualization-jobs/{job_id}/stop modelarts:tensorboard:stop - √ √ 查看作业资源规格 GET /v1/{project_id}/job/resource-specs - - √ √ 查看作业引擎规格 GET /v1/{project_id}/job/ai-engines - - √ √ 父主题: 权限策略和授权项
  • 概述 使用TensorFlow框架创建训练作业的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调用查询作业资源规格接口获取训练作业支持的资源规格。 调用查询作业引擎规格接口查看训练作业的引擎类型和版本。 调用创建训练作业接口创建一个训练作业。 调用查询训练作业版本详情接口根据训练作业的ID查询训练作业的创建详情。 调用获取训练作业日志的文件名接口获取训练作业日志的文件名。 调用查询训练作业日志接口查看训练作业的日志详情。 当训练作业使用完成或不再需要时,调用删除训练作业接口删除训练作业。
  • 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目名称和ID、获取帐号名和ID和获取用户名和ID。 已准备好TensorFlow框架的训练代码,例如将启动文件“train_mnist_tf.py”存放在OBS的“/test-modelarts/mnist-tensorflow-code/”目录下。 已经准备好训练作业的数据集,例如将训练数据集存放在OBS的“/test-modelarts/dataset-mnist/”目录下。 已经创建好训练作业的输出位置,例如“/test-modelarts/mnist-model/output/”。
  • 操作步骤 调用认证鉴权接口获取用户的Token。 请求消息体: URI格式:POST https://{iam_endpoint}/v3/auth/tokens 请求消息头:Content-Type →application/json 请求Body: { "auth": { "identity": { "methods": ["password"], "password": { "user": { "name": "user_name", "password": "user_password", "domain": { "name": "domain_name" } } } }, "scope": { "project": { "name": "cn-north-1" } } }} 其中,加粗的斜体字段需要根据实际值填写: iam_endpoint为IAM的终端节点。 user_name为IAM用户名。 user_password为用户登录密码。 domain_name为用户所属的帐号名。 cn-north-1为项目名,代表服务的部署区域。 返回状态码“201 Created”,在响应Header中获取“X-Subject-Token”的值即为Token,如下所示: x-subject-token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 调用查询作业资源规格接口获取训练作业支持的资源规格。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/job/resource-specs?job_type=train 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: ma_endpoint为ModelArts的终端节点。 project_id为用户的项目ID。 “X-auth-Token”的值是上一步获取到的Token值。 返回状态码“200 OK”,响应Body如下所示: { "specs": [ ...... { "spec_id": 7, "core": "2", "cpu": "8", "gpu_num": 0, "gpu_type": "", "spec_code": "modelarts.vm.cpu.2u", "unit_num": 1, "max_num": 1, "storage": "", "interface_type": 1, "no_resource": false }, { "spec_id": 27, "core": "8", "cpu": "32", "gpu_num": 0, "gpu_type": "", "spec_code": "modelarts.vm.cpu.8u", "unit_num": 1, "max_num": 1, "storage": "", "interface_type": 1, "no_resource": false } ], "is_success": true, "spec_total_count": 5} 根据“spec_code”字段选择并记录创建训练作业时需要的规格类型,本章以“modelarts.vm.cpu.8u”为例,并记录“max_num”字段的值为“1”。 “no_resource”字段用于判断规格资源是否充足,“false”代表有资源。 调用查询作业引擎规格接口查看训练作业的引擎类型和版本。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/job/ai-engines?job_type=train 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”,响应Body如下所示: { "engines": [ { "engine_type": 13, "engine_name": "Ascend-Powered-Engine", "engine_id": 130, "engine_version": "TF-1.15-python3.7-aarch64" }, ...... { "engine_type": 1, "engine_name": "TensorFlow", "engine_id": 3, "engine_version": "TF-1.8.0-python2.7" }, { "engine_type": 1, "engine_name": "TensorFlow", "engine_id": 4, "engine_version": "TF-1.8.0-python3.6" }, ...... { "engine_type": 9, "engine_name": "XGBoost-Sklearn", "engine_id": 100, "engine_version": "XGBoost-0.80-Sklearn-0.18.1-python3.6" } ], "is_success": true} 根据“engine_name”和“engine_version”字段选择创建训练作业时需要的引擎规格,并记录对应的“engine_id”,本章以TensorFlow引擎为例创建作业,记录“engine_id”为“4”。 调用创建训练作业接口创建一个基于TensorFlow框架的名称为“jobtest_TF”的训练作业。 请求消息体: URI格式:POST https://{ma_endpoint}/v1/{project_id}/training-jobs 请求消息头: X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... Content-Type →application/json 请求Body: { "job_name": "jobtest_TF", "job_desc": "TF识别手写数字", "config": { "worker_server_num": 1, "parameter": [], "flavor": { "code": "modelarts.vm.cpu.8u" }, "train_url": "/test-modelarts/mnist-model/output/", "engine_id": 4, "app_url": "/test-modelarts/mnist-tensorflow-code/", "boot_file_url": "/test-modelarts/mnist-tensorflow-code/train_mnist_tf.py", "data_source": [ { "type": "obs", "data_url": "/test-modelarts/dataset-mnist/" } ] }, "notification": { "topic_urn": "", "events": [] }, "workspace_id": "0"} 其中,加粗的斜体字段需要根据实际值填写: “job_name”和“job_desc”填写训练作业的名称和描述。 “worker_server_num”和“code”填写2获取的“max_num”和“spec_code”的值。 “engine_id”填写3获取的引擎ID。 “train_url”填写训练作业的输出目录。 “app_url”和“boot_file_url”填写训练作业的代码目录和代码启动文件。 “data_url”填写训练作业使用的数据集目录。 返回状态码“200 OK”,表示训练作业创建成功,响应Body如下所示: { "version_name": "V0001", "job_name": "jobtest_TF", "create_time": 1609121837000, "job_id": 567524, "resource_id": "jobaedef089", "version_id": 1108482, "is_success": true, "status": 1} 记录“job_id”(训练作业的任务ID)和“version_id”(训练作业的版本ID)字段的值便于后续步骤使用。 “status”为“1”表示训练作业在初始化状态中。 调用查询训练作业版本详情接口根据训练作业的ID查询训练作业的创建详情。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: “job_id”为4记录的训练作业的任务ID。 “version_id”为4记录的训练作业的版本ID。 返回状态码“200 OK”,响应Body如下所示: { "dataset_name": null, "duration": 1326, "spec_code": "modelarts.vm.cpu.8u", "parameter": [], "start_time": 1609121913000, "model_outputs": [], "engine_name": "TensorFlow", "error_result": null, "gpu_type": "", "user_frame_image": null, "gpu": null, "dataset_id": null, "nas_mount_path": null, "task_summary": {}, "max_num": 1, "model_metric_list": "{}", "is_zombie": null, "flavor_code": "modelarts.vm.cpu.8u", "gpu_num": 0, "train_url": "/test-modelarts/mnist-model/output/", "engine_type": 1, "job_name": "jobtest_TF", "nas_type": "efs", "outputs": null, "job_id": 567524, "data_url": "/test-modelarts/dataset-mnist/", "log_url": null, "boot_file_url": "/test-modelarts/mnist-tensorflow-code/train_mnist_tf.py", "volumes": null, "dataset_version_id": null, "algorithm_id": null, "worker_server_num": 1, "pool_type": "SYSTEM_DEFINED", "autosearch_config": null, "job_desc": "TF识别手写数字", "inputs": null, "model_id": null, "dataset_version_name": null, "pool_name": "hec-train-pub-cpu", "engine_version": "TF-1.8.0-python3.6", "system_metric_list": { "recvBytesRate": [ "0", "0" ], "cpuUsage": [ "0", "0" ], "sendBytesRate": [ "0", "0" ], "memUsage": [ "0", "0" ], "gpuUtil": [ "0", "0" ], "gpuMemUsage": [ "0", "0" ], "interval": 1, "diskWriteRate": [ "0", "0" ], "diskReadRate": [ "0", "0" ] }, "retrain_model_id": null, "version_name": "V0001", "pod_version": "1.8.0-cp36", "engine_id": 4, "status": 10, "cpu": "32", "user_image_url": null, "spec_id": 27, "is_success": true, "storage": "", "nas_share_addr": null, "version_id": 1108482, "no_resource": false, "user_command": null, "resource_id": "jobaedef089", "core": "8", "npu_info": null, "app_url": "/test-modelarts/mnist-tensorflow-code/", "data_source": [ { "type": "obs", "data_url": "/test-modelarts/dataset-mnist/" } ], "pre_version_id": null, "create_time": 1609121837000, "job_type": 1, "pool_id": "pool7d1e384a"} 根据响应可以了解训练作业的版本详情,其中“status”为“10”表示训练作业已经运行成功。 调用获取训练作业日志的文件名接口获取训练作业日志的文件名。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”,响应Body如下所示: { "is_success": true, "log_file_list": [ "job-jobtest-tf.0" ]} 表示只存在一个名称为“job-jobtest-tf.0”的日志文件。 调用查询训练作业日志向下查询8行训练作业日志文件的详细信息。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/aom-log?log_file=job-jobtest-tf.0&lines=8&order=desc 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写: “log_file”填写6获取的日志文件名。 “lines”填写需要获取的日志长度。 “order”填写日志查询方向。 返回状态码“200 OK”,响应Body如下所示: { "start_line": "1609121886518240330", "lines": 8, "is_success": true, "end_line": "1609121900042593083", "content": "Done exporting!\n\n[Modelarts Service Log]Training completed.\n\n[ModelArts Service Log]modelarts-pipe: will create log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: will create log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: will write log file /tmp/log/jobtest_TF.log\n\n[ModelArts Service Log]modelarts-pipe: param for max log length: 1073741824\n\n[ModelArts Service Log]modelarts-pipe: param for whether exit on overflow: 0\n\n[ModelArts Service Log]modelarts-pipe: total length: 23303\n"} 当训练作业使用完成或不再需要时,调用删除训练作业接口删除训练作业。 请求消息体: URI格式:GET https://{ma_endpoint}/v1/{project_id}/training-jobs/{job_id} 请求消息头:X-auth-Token →MIIZmgYJKoZIhvcNAQcCoIIZizCCGYcCAQExDTALBglghkgBZQMEAgEwgXXXXXX... 其中,加粗的斜体字段需要根据实际值填写。 返回状态码“200 OK”表示作业删除成功,响应示例如下: { "is_success": true}
  • 注意事项 您最多可创建1000条阈值规则,如果阈值规则数量已达上限1000条时,请删除不需要的阈值规则后重新创建。 设置通知策略 阈值规则的状态(正常、超限阈值、数据不足)发生变化时,如需使用邮件或短信等方式发送通知,请参考下面操作在SMN界面设置通知策略。如不需接收邮件或短信通知,请跳过下面操作。具体操作如下: 创建一个主题,操作详见创建主题。 设置主题策略,操作详见设置主题策略。 设置主题策略时,“可发布消息的服务”必须选择“APM”,否则会导致通知发送失败。 为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详见订阅主题。
  • 什么是映射 AOM中的日志实际上是以一个日志流的形式在LTS中存在(如图1中的AOM日志流所示),AOM可以查询已配置采集路径的原始日志,但当前AOM的日志流无法在LTS控制台查看。您可以通过在AOM控制台添加接入规则来创建映射,映射创建后,即可通过LTS查看和分析AOM日志。 图1 未创建映射 创建日志流A并创建接入规则后,即已创建AOM至LTS的映射,最新的AOM日志将上报至日志流A,AOM可以查看映射前后所有的日志数据,日志流A不会复制或移动原AOM日志流中的历史数据,如图2所示。 图2 已创建映射
  • 添加自定义标签字段 添加自定义标签字功能目前仅在华东-上海一开放。 通过添加自定义标签,用户可以在日志页面上查看到自定义标签,如果将aom日志接入lts后,可以通过该自定义标签关键字进行日志搜索。 编辑yaml:通过在工作负载的yaml中spec:template:metadata:annotations:下增加以下字段来实现 kubernetes.AOM.log.relabel: '{"key1":"value1", "key2":"value2"} 自定义标签限制如下: 最多可设置16组“key:value”字段。 key或value的参数值最多不超过64个字符。 自定义标签不区分大小写,且不能与默认的标签重复。例如,默认标签为“po”,则自定义标签不能为“PO”、“Po”或“pO”。 默认标签如下: "podName", "appName", "containerName", "clusterId","clusterName", "serverlessPkg", "serverlessFunc", "projectId", "serviceID","nameSpace", "pid", "hostId", "hostName", "hostIP", "hostIPv6" 父主题: 容器日志采集配置
  • ICAgent版本说明 表1 ICAgent版本说明 版本号 说明 5.12.135 解决CPU使用率为0的问题 解决CCE1.23版本集群containerd节点容器网络指标缺失问题 支持采集EulerOS 2.5系统的磁盘分区指标 5.12.133 容器的标准输出日志支持多行采集。 5.12.130 支持将CCE日志直接接入LTS。 5.12.120 增加进程的最大句柄数指标。 支持LTS的podlb域名的切换能力。 5.12.111 新增线程指标、修复“获取lvs磁盘分区指标失败”问题。 5.12.100 上报内存指标增加内存workingset使用量、内存workingset使用率 容器采集支持通过标签区分stderr.log和stdout.log 容器上报增加Pod_ip的tag **配置匹配当前目录文件 5.12.98 增加LTS日志黑名单功能,更改容器指标来源为working_set 5.12.96 新增云资源发现类型 5.12.90 更新gpu指标来源 5.12.87 新增磁盘支持类型 5.12.75 适配安全容器场景 父主题: 资源接入AOM
  • 标准输出配置 通过添加指定采集容器标准输出标签,用户可以指定采集pod下的对应容器名的标准输出日志。用户在pod的yaml中spec:template:metadata:annotations:字段增加以下字段来实现指定要采集的容器名称。 kubernetes.AOM.log.stdout: '["container_name0", "container_name1"]' 规则如下: 如果没有kubernetes.AOM.log.stdout:字段,默认采集该pod下全部容器的标准输出日志,兼容原有场景。 如果存在该字段,值为空,即kubernetes.AOM.log.stdout: '[]'则不采集该pod下容器的标准输出日志。 示例: spec: replicas: 1 selector: matchLabels: app: als729 version: v1 template: metadata: creationTimestamp: null labels: app: als729 version: v1 annotations: kubernetes.AOM.log.relabel: '{"key1":"value1","key2":"value2","key3":"value3","key4":"value4","key5":"value5","key6":"value6","key7":"value7","key8":"value8","key9":"value9","key10":"value10","key11":"value11","key12":"value12","key13":"value13","key14":"value14","key15":"value16"}' kubernetes.AOM.log.stdout: '["container-0","container_name1"]' 父主题: 容器日志采集配置
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片断 package metrictype MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"`}type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"`}type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"`}type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"`}type Dimension struct { Name string `json:"name"` Value string `json:"value"`} kafka消息示例 key:,value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131"} 参数说明: 表4 告警参数 参数 参数类型 描述 events Array ofobjects,详见 表5。 事件或者告警详情。 project_id String 租户从IAM申请到的projectid,一般为32位字符串。 表5 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间,CST毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String; event_severity:事件级别枚举值。类型为String,四种类型 "Critical", "Major", "Minor", "Info"; event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件; resource_provider:事件对应云服务名称。类型为String; resource_type:事件对应资源类型。类型为String; resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 更多操作 告警行动规则创建完成后,您还可以执行表2中的相关操作。 表2 相关操作 操作 说明 编辑告警行动规则 单击“操作”列的“编辑”。 删除告警行动规则 删除单条规则:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条规则:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 说明: 删除告警行动规则前需要先删除该行动规则绑定的告警规则。 搜索告警行动规则 在右上角的搜索框中输入规则名称关键字,单击后显示匹配对象。
  • 概述 本功能当前在华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州、西南-贵阳一、中国-香港、华南-深圳、华南-广州-友好用户环境、华北-乌兰察布一、亚太-曼谷和亚太-新加坡区域开放,如有需求可以通过提交工单,联系工程师为您开放此功能。 AOM提供告警降噪功能,您可以在发送告警通知前按告警降噪规则对告警进行处理,处理完成后再发送通知,避免产生告警风暴。 告警降噪功能分为分组、去重、抑制、静默四部分。 去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000, "ends_at" : 1579420868000, "timeout" : 60000, "resource_group_id" : "5680587ab6*******755c543c1f", "metadata" : { "event_name" : "test", "event_severity" : "Major", "event_type" : "alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签 }, "annotations" : { "alarm_probableCause_zh_cn" : "可能原因", "alarm_fix_suggestion_zh_cn" : "修复建议" }} 父主题: 告警降噪
  • 概述 接入管理提供监控数据上报的网络通道建立和解除,以及监控数据上报使用的认证凭据生成和吊销等功能,帮助您快速的将监控数据接入到AOM。 本功能当前开放区域为:华北-北京一、华北-北京二、华东-上海一、华南-广州、中国-香港、亚太-新加坡,华东-上海二,华北-北京四,西南-贵阳一,乌兰察布一,其他区域暂未开放,敬请期待。 您可通过接入管理生成的认证凭据access_code,将原生Prometheus的指标通过remote write上报到AOM服务端,参见将Prometheus的数据上报到AOM,实现时序数据的长期存储;也可以通过access_code作为认证凭据来查询AOM中的数据,参见通过grafana查看AOM中的指标数据,AOM支持以下原生Prometheus的API: 查询普罗(Prometheus)接口URL: GET /v1/:project_id/api/v1/query GET /v1/:project_id/api/v1/query_range GET /v1/:project_id/api/v1/labels GET /v1/:project_id/api/v1/label/:label_name/values POST /v1/:project_id/api/v1/query POST /v1/:project_id/api/v1/query_range POST /v1/:project_id/api/v1/labels 调用以上API接口时,在请求header的Authorization字段加access_code。 示例:"Authorization: Bearer {access_code}" 或者 "Authorization: Basic base64Encode("aom_access_code:{access_code}")" 上报时序数据接口:POST /v1/:project_id/push base64Encode指的是将参数进行base64编码。 父主题: 接入管理
  • 更多操作 消息模板创建完成后,您还可以对消息模板列表执行表2中的相关操作。 表2 相关操作 操作 说明 编辑消息模板 单击“操作”列的“编辑”。 复制消息模板 单击“操作”列的“复制”。 删除消息模板 删除单条消息模板:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条消息模板:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 说明: 删除消息模板前需要先删除消息模板绑定的告警行动规则。 搜索消息模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。
  • Agent包下载配置 表1 Agent包下载配置 区域 Agent包下载地址 SHA-256 华北-北京一 http://icagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-北京四 http://icagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华北-北京二 http://icagent-cn-north-2.obs.cn-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华北-乌兰察布一 http://icagent-cn-north-9.obs.cn-north-9.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 9426da2f8a60d54ab33aa9057c2100237b6781bf02ab9cbe0bc7849fa2a2c1f2 华东-上海一 http://icagent-cn-east-3.obs.cn-east-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华东-上海二 http://icagent-cn-east-2.obs.cn-east-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 华南-广州 http://icagent-cn-south-1.obs.cn-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 4cd070a00331cf4302043ce3e90625561b55ba245ff224922c01aa1fc0234a56 华南-广州-友好用户环境 http://icagent-cn-south-4.obs.cn-south-4.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 85d2ea6a7ccc6a2fccd130ecda02cb191a95524d097c7137856e9392498b9256 西南-贵阳一 http://icagent-cn-southwest-2.obs.cn-southwest-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 中国-香港 http://icagent-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-曼谷 http://icagent-ap-southeast-2.obs.ap-southeast-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 亚太-新加坡 http://icagent-ap-southeast-3.obs.ap-southeast-3.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 非洲-约翰内斯堡 http://icagent-af-south-1.obs.af-south-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 30b669dccb9dbe348a90b7f8578f895ae20fce87d77807dddb3ced8361380dee 拉美-墨西哥城一 http://icagent-na-mexico-1.obs.na-mexico-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 1743365593a3d5a5704d070a645de3eaaa3b2f621967e2132d31dfc23f943d01 拉美-墨西哥城二 http://icagent-la-north-2.obs.la-north-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 509da7ad5405254d317645e6ff6da65be74ee7f08bd447d1cefc7ed192f676fd 拉美-圣保罗一 http://icagent-sa-brazil-1.obs.sa-brazil-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz c7b149e28795abbec906a650ed7e166a6839726ffc0873ecb3ebfee0048c0dc9 拉美-圣地亚哥 http://icagent-la-south-2.obs.la-south-2.myhuaweicloud.com/ICAgent_linux/ICProbeAgent.tar.gz 023c83d91102ffc08b9a4500583c785e3905ccd3eb082f7326269a625fb8a6d2 父主题: 参考信息
  • 云审计服务支持的AOM操作列表 AOM为运维人员提供一站式立体运维平台,实时监控应用、资源运行状态,通过数十种指标、告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。 AOM作为应用运维环境的多层次一站式运维监控平台,可以实现对云主机、 存储、网络、WEB容器、docker、kubernetes等应用运行环境的深入监控并进行集中统一的可视化管理,能够有效预防问题的产生及快速帮助应用运维人员定位故障,降低运维成本。同时,AOM开放统一API,支撑对接自研监控系统或者报表系统。AOM并非传统监控,它通过应用的角度看业务,满足企业对业务的高效和快速迭代的需求,可帮助企业实现 IT 对业务的有效支撑,保护、优化IT资产投资,使企业更好的达到其战略目标并实现IT资产价值的最大化。通过云审计服务,您可以记录与AOM服务相关的操作事件,便于日后的查询、审计和回溯。 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 操作名称 资源类型 事件名称 创建仪表盘 ams add-view-action 修改仪表盘 ams update-view-action 删除仪表盘 ams deleteDashboard 创建阈值 ams addThreshold 修改阈值 ams updateThreshold 删除阈值 ams deleteThreshold 删除订阅规则 apminventory deleteSubscribeRule 修改订阅规则名称 apminventory updateSubscribeName 创建订阅规则 apminventory createSubscribeRule 开启按需版 OpenOrCloseProService openProBillingService 关闭按需版 OpenOrCloseProService closeProBillingService 删除一条阈值规则 threshold_rules_v2 deleteOneAlarmById 批量删除阈值规则 threshold_rules_v2 deleteAlarmRules 修改阈值规则 threshold_rules_v2 updateAlarm 创建阈值规则 threshold_rules_v2 addAlarmForDT 修改事件类告警规则 event2alarm_rule updateEvent2AlarmRule 创建事件类告警规则 event2alarm_rule addEvent2AlarmRule 删除事件类告警规则 event2alarm_rule deleteEvent2AlarmRule 安装采集器 icmgr icagentInstall 升级采集器 icmgr icagentUpgrade 升级探针 icmgr pinPointUpgrade 卸载采集器 icmgr IcagentUninstall 指标和日志采集开关 icmgr metricAndLogSwitches 创建接入码 icmgr icmgrAddAccessCode 删除接入码 icmgr icmgrDelAccessCode 下发配置事件 icmgr webIcAgentEvent 清除告警 pushEvents clearEvents 创建告警行动规则 actionRule addActionRule 修改告警行动规则 actionRule updateActionRule 删除告警行动规则 actionRule delActionRule 创建消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 创建分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 创建抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 创建静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 创建或修改应用发现规则 apminventory addOrUpdateAppRules 删除应用发现规则 apminventory deleteAppRules 修改应用/主机/组件的别名/标签 apminventory updateInventoryTag 创建策略组 pe createPolicyGroup 删除策略组 pe deletePolicyGroup 更新策略组 pe updatePolicyGroup 启用策略组 pe enablePolicyGroup 停用策略组 pe disablePolicyGroup 创建策略 pe createPolicy 删除策略 pe deletePolicy 更新策略 pe updatePolicy 启用策略 pe enablePolicy 停用策略 pe disablePolicy 更新老化周期 als updateLogStorgeSetting 父主题: 云审计服务支持的关键操作
  • 告警标签特征 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key 和value只能由字母、数字和下划线组成,且不能以下划线开头,您最多可创建10个自定义标签。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。
  • AOM自定义策略样例 示例1:授权用户创建阈值规则的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:alarmRule:create" ] } ]} 示例2:拒绝用户删除应用发现规则 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予AOM FullAccess的系统策略,但不希望用户拥有AOM FullAccess中定义的删除应用发现规则权限,您可以创建一条拒绝删除应用发现规则的自定义策略,然后同时将AOM FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对AOM执行除了删除应用发现规则外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "aom:discoveryRule:delete" ] } ]} 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:*:list", "aom:*:get", "apm:*:list", "apm:*:get" ] }, { "Effect": "Allow", "Action": [ "cce:cluster:get", "cce:cluster:list", "cce:node:get", "cce:node:list" ] } ]}
  • 创建资源分组 在左侧导航栏中选择“资源分组”,可查看资源分组的信息。 单击右上角的“创建资源分组”。 根据界面提示配置参数,具体如表1所示。 表1 配置参数 参数 说明 示例 分组名称 输入分组名称。 AOM 企业项目 选择企业项目,若没有企业项目,需要单击“创建企业项目”创建企业项目。 default 描述 输入描述信息。 - 组标签 输入标签键和标签值。 说明: 最多可添加10个组标签。 - 资源列表 添加资源 单击“添加资源”,可以添加资源。 - 资源添加方式 根据实际需求,选择“动态资源”或“指定资源”。 如果您需要删除添加的全部资源,可在资源添加方式右侧,单击删除。 动态资源 资源匹配规则 根据界面提示,选择所需的资源匹配规则。 如果您需要配置多条规则,可单击“添加规则”。 如果您需要删除单条资源匹配规则,可单击。 说明: 资源添加方式选择“动态资源”才会显示。 最多可以添加100条资源匹配规则。 - 资源类型 根据实际选择资源类型:集群、主机、应用、组件、实例、进程和容器。 说明: 资源添加方式选择“指定资源”才会显示。 集群 资源名称 展示勾选的资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 资源列表 勾选资源名称。 说明: 资源添加方式选择“指定资源”才会显示。 arm-test-77169 参数配置后,单击“确定”。
  • 更多统计规则操作 创建完统计规则后,您还可以执行更多统计规则操作中的操作。 表1 相关操作 操作 说明 查看统计规则 在“规则名称”列单击统计规则名称,查看统计规则的详细信息。 查看阈值规则 “阈值规则”列展示了该统计规则生成的指标关联的所有阈值规则,多个阈值规则间使用空格分割。 单击阈值规则名称,跳转到阈值规则界面,可查看该阈值规则的详细信息。 添加阈值规则 单击“操作”列的“添加阈值规则”,对统计规则生成的指标添加阈值规则,当满足阈值条件时产生阈值告警,以便能在第一时间发现异常并进行处理。 修改统计规则 单击“操作”列的“编辑”。 删除统计规则 删除一个统计规则:单击“操作”列的“删除”。 删除一个或多个统计规则:选中一个或多个统计规则前的复选框,单击页面上方的“删除”。 说明: 删除统计规则后,您的日志桶、日志文件均不会被删除。
  • 更多事件类告警规则操作 事件类告警规则创建完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 修改事件类告警规则 单击“操作”列的“修改”。 删除事件类告警规则 删除一个事件类告警规则:单击“操作”列的“删除”。 删除一个或多个事件类告警规则:选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“删除”。 迁移事件类告警规则 选中一个或多个事件类告警规则前的复选框,在规则列表上方单击“一键迁移至2.0”,可将选中的事件类告警规则批量迁移至AOM 2.0。 须知: 迁移操作无法恢复,请谨慎操作。 启、停事件类告警规则 单击“操作”列的“启用”或“停用”。 搜索事件类告警规则 支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。
共100000条