华为云用户手册

  • 更多操作 一条数据标注完成后,可执行如下表1所示的操作。 表1 更多操作 操作 说明 删除标注 在“数据标注”页面的标注数据集列表中,单击“操作”列“删除”。 发布标注 在“数据标注”页面的标注数据集列表中,单击“操作”列“发布”。 在“发布”对话框,有两种发布方式: 选择发布后“更新原始数据集”,单击“确认”,覆盖原数据集信息(数据集名称不变)。 选择发布后“创建新数据集”,设置新数据集名称,然后单击“确认”。
  • 标注数据集 在“数据标注”页面的标注数据集列表中,单击“操作”列“标注”。 在“数据标注”页面,在“数据集文件列表”下拉列表中选择文件。 单击“创建对话”顺次生成一条不完整信息(对话样式),用户根据实际需要填写对话的instruction(指令)、input(输入/提问)、output(输出/回答),完成一条数据标注。 对于单条标注,还可执行以下操作: 单击标注右侧“一键自动生成”由平台内置的模型一键生成所有行的output信息。 单击标注右侧“添加回答”可继续添加多条output。 单击标注右侧“删除”,可删除标注。 对于标注中的output,,还可执行以下操作: 单击output所在行右侧的“自动生成”,由平台内置的模型自动生成当前行的output信息。 单击output所在行右侧的“重新生成”,由平台内置的模型重新生成当前行的output信息。
  • AI原生应用引擎优势 提供企业专属大模型开发的整套工具链,包括数据准备、模型选择/调优、知识工程等能力,广泛纳入业界优秀大模型,快速接入模型,提供行业模型评测能力,对多系列、多规格、多版本、多领域、多场景的大模型完成分级分权等精细化管理。 提供基于大模型快速构建AI原生应用的整套工具链,支持可视化画布流程编排,开箱即用的RAG/Prompt模版应用,应用部署及应用集成能力,帮助企业用好大模型。 构建企业应用与大模型之间的安全隔离带,保障AI原生应用安全可信。
  • 更多操作 创建团队完成后,您还可以执行如下表2所示的操作。 表2 更多操作 操作 说明 关注团队 单击“我的团队”区域右上角“关注团队”。 在“关注团队”页面的“团队列表”中,单击需要添加的团队名称右侧的“关注”。 在“我的团队”列表中可查看到此新关注的团队卡片。 设置默认团队 选中“我的团队”区域内团队卡片左下角的“默认团队”,可将此团队设置为默认团队,此默认团队将置顶显示在开发中心团队空间中的团队首位。 移出团队 单击“我的团队”区域内团队卡片右下角的“移出”,可将此团队从我的团队列表移出,我的团队列表中将不显示此团队。移出后通过右上角“添加团队”可再次添加到我的团队。 说明: 团队创建人不可移出自己创建的团队。
  • 操作步骤 在开发中心工作台首页下方的“我的团队”区域,单击右侧“创建团队”。 在“创建团队”页面,设置团队相关参数,参数配置请参见表1。 表1 创建团队参数说明 参数名称 参数说明 团队名称 必填项,团队的命名。 团队归属部门 必填项,选择系统中已提前创建的部门,部门的创建方法请参见部门管理。 关联服务 必填项,选择系统中已提前创建的服务,服务创建方法请参见服务管理。 团队LOGO 必填项,单击系统默认图片上的“点击修改”,可选择本地图片自定义LOGO图片。 团队简介(可选) 非必填项,团队空间的功能描述或其他备注信息。 单击“创建”。 在“我的团队”区域可查看到创建的团队的卡片。
  • 修改个人华为账号的密码 适用于修改个人华为账号(包括购买AppStage的租户开通者的个人华为账号、通过邀请成员加入组织的个人华为账号)的密码。 鼠标光标移至右上角登录的用户名,弹出“账号信息”页面。 在“账号信息”页面,单击“修改密码”,进入华为账号的“帐号与安全”页面。 在“安全中心”区域单击“重置帐号密码”右侧“重置”。 在“重置帐号密码”页面,输入旧密码、新密码及再次输入新密码,单击“确定”。 密码需满足以下要求: 至少8个字符。 至少包含字母和数字,不能包含空格。 密码强度:勿使用其他账号的密码。 如果忘记旧密码,可通过如下操作找回密码: 单击“忘记旧密码”。 在“找回密码”页面,输入华为账号(注册账号的手机号或邮件地址)。 输入图形验证码,单击“下一步”。 单击“获取验证码”,输入相应的邮件验证码或手机验证码,再单击“下一步”。 设置新密码并确认新密码,单击“确定”。 密码需满足以下要求: 至少8个字符。 至少包含字母和数字,不能包含空格。 密码强度:勿使用其他账号的密码。 如果您有其他设备使用此账号,设置新密码后需重新登录,以确保正常使用华为服务。
  • 使用SSH协议在TortoiseGit客户端克隆代码 本节内容指导如何使用TortoiseGit客户端克隆代码托管服务的仓库到本地环境中。 下载并安装TortoiseGit客户端。 获取仓库地址。 在仓库主页中,单击“克隆/下载”按钮,获取SSH地址,通过这个地址,可以在本地计算机连接代码托管仓库。 您可在代码托管服务仓库列表中“仓库地址”下获取SSH地址。 进入您的本地仓库目录下,右键选择“Git克隆”菜单选项,如下图所示。 在弹出的窗口中将上述复制的SSH地址粘贴到URL输入框中,勾选“加载Putty密钥”并选择私钥文件,最后单击“确定”,如下图所示。 单击“确定”之后即开始克隆仓库,如果您是第一次克隆TortoiseGit客户端会询问您是否信任远程仓库,单击“是”即可。 克隆用时受仓库大小影响,克隆的动作如下图所示。
  • 使用SSH协议在Git Bash客户端克隆代码 本节内容指导如何使用Git Bash客户端克隆代码托管服务的仓库到本地环境中。 下载并安装Git Bash客户端。 设置SSH密钥。 获取仓库地址。 在仓库主页中,单击“克隆/下载”按钮,获取SSH地址,通过这个地址,可以在本地计算机连接代码托管仓库。 如果您未配置SSH密钥,你可单击上图中“SSH密钥管理”链接进行配置,详情请参考SSH密钥。 您可在代码托管服务仓库列表中“仓库地址”下获取SSH地址。 打开Git Bash客户端。 在本地计算机上新建一个文件夹用于存放代码仓库,在空白处单击鼠标右键,打开Git Bash客户端。 克隆仓库时会自动初始化,无需执行init命令。 输入如下命令,克隆代码托管仓库。 git clone 仓库地址 命令中“仓库地址”即3中获取的SSH地址。 如果您是第一次克隆仓库,会询问您是否信任远程仓库,输入“yes”即可。 执行成功后,您会看到多出一个与您在代码托管服务新建的仓库同名的文件夹,并且其中有一个隐藏的.git文件夹,则说明克隆仓库成功。 此时您位于仓库上层目录,执行如下命令,进入仓库目录。 cd 仓库名称 进入仓库目录,可以看到此时Git默认为您定位到master分支。 客户端在git clone代码仓库时失败的原因排查: 确保您的网络可以访问代码托管服务。 请在git客户端使用如下测试命令验证网络连通性(其中“**********.com”为代码仓库地址)。 ssh -vT git@**********.com 如果返回内容含有“Could not resolve hostname **********.com: Name or service not known”,则您的网络被限制,无法访问代码托管服务,请求助您本地所属网络管理员。 请检查建立的SSH密钥配对关系,必要时重新生成密钥并到代码托管控制台进行配置。 只有开启IP白名单的机器才可以在Git客户端克隆。
  • 效能大盘 效能大盘是AppStage集成看板 CodeArts Board的能力,为企业管理者、项目经理、团队Leader、开发者提供面向DevSecOps领域端到端的研发效能度量能力,提供从需求、缺陷、代码、构建、测试、部署、发布到运营等研发各阶段作业数据的分析洞察能力,覆盖交付质量、交付效率、交付能力、交付成本、交付价值,同时集成了华为先进的方法论和优秀实践,助力企业数字化转型和数据驱动运营及治理,提升企业软件能力可信和研发效能。 关于效能大盘的详细介绍文档请参考看板 CodeArts Board。
  • 弹性网络服务概述 弹性网络服务(ENS)通过引入“隔离域”这一网络资源概念,将业务使用的底层网络资源进行封装,为具有相同安全保护需求并相互信任的服务提供访问策略的安全分组。当服务器加入到隔离域后,即受到这些访问规则的保护。访问规则继承自选定的安全区域(安全域),并根据租户声明的服务依赖关系自动生成。 图1 ENS与原有模式差异 隔离域内部是在虚机子网或者容器网段上加安全域包装在一起的,当建立了隔离域后,业务层只感知隔离域与隔离域之间的互通关系。 图2 业务感知差异 父主题: 弹性网络服务
  • 隔离域概述 隔离域是一个逻辑上的安全分组,为具有相同安全保护需求并相互信任的服务提供访问策略。当服务器加入到隔离域后,即受到这些访问规则的保护。 创建隔离域需要选择站点、环境、安全区域和VPC信息,其中VPC主要用于决定网络资源(子网、安全组、ACL)在哪里创建。创建隔离域后,再基于隔离域创建子网,然后再创建ACL或者安全组。 隔离域提供访问策略的实现,现在有ACL和安全组两种,ACL和安全组都是规则的集合。 父主题: 隔离域
  • 功能说明 下表介绍了监控服务具体的功能,您可以根据需要选择。 功能 功能描述 故障预防 构建开箱即用标准化巡检,增强构建场景可编排、任务可定义的自动化巡检能力,帮助SRE快速分析和发现业务在现网运行的风险,可视化度量支撑业务纵横治理,驱动业务改进,从而提升业务可靠性、可运维能力、用户体验等。 提供运维共性问题分享能力,避免同类问题重复出现。 故障检测 提供基于指标监控、告警、日志、事件管理的服务运行状态检测能力。 指标,提供出厂标准的BaaS服务指标和自有服务纵向指标,支持业务自定义指标能力。 告警,提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 日志,构建统一的日志模型,提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 Events,围绕故障快速诊断,构建以服务运行状态检测为目标的运维Events中心;构建全景化的、基于运维Events的故障诊断能力;定义标准Events模型,对接不同的Events源;提供规则匹配能力和Events跟踪管理能力;支持运营事件的接入,支持生成知识库和标签管理能力。 运行状况,提供基于指标、告警、事件管理和日志的服务运行状况监控能力;定义标准的服务运行状态。 故障诊断 专家诊断工具,聚合Nuwa Trace、WiseDB、XPMS和WiseWAN水晶球等专业诊断能力。 AI辅助诊断服务,提供自适应异常检测能力和全链路智能根因诊断能力;整合专家诊断能力,持续构建ELB、SLB、基础设施侧根因诊断能力;异常检测支持5分钟快速检测,故障诊断提供一键式配置能力;支持完成告警聚合、调用链根因诊断,多维下钻分析,日志根因诊断,流量溯源诊断,事件总结算法的整合。 故障通报 以运维事件为中心,提供事件的管理、通报、War Room和自动派生工单的能力;运维通报遵从运维事件通报机制和流程,工单派生可跟踪流程和历史处理情况。 故障恢复 基于运维知识经验及自动化决策能力, 构建标准化故障场景自恢复能力,提供标准故障场景的恢复预案。 故障改进 提供故障恢复后事后分析能力。 运维数仓 构建高可靠、高性能、开放高效、全流程开放的运维数仓能力,主要包括: 数据开发,构建从数据接入、聚合、清洗、分发、到存储计算的全流程开放的数据开发能力,支撑业务自助完成指标定义。 构建统一运维数仓,承载指标库、日志库、链路库和事件库数据资产。 数据治理,提供针对运维数仓的数据价值洞察分析能力,助力业务聚焦价值,降低成本。 运维RPA 提供运维场景化可编排能力的技术支持平台,满足运维巡检场景化、监控场景化、运维流程的技术支撑。 运维可视化 提供可定义的监控报表能力,提供移动办公能力。
  • 应用场景 企业数字化转型进入云原生阶段,从以“资源”为中心向以“应用”为中心转变,以云原生应用为运维对象带来了新的要求,这需要SRE在理解业务的基础上,不仅要保证系统持续高可用,而且要重视高效交付,同时要提升用户体验和帮助企业降低成本,这些都需要运维平台具备智能化运维能力。 华为云AppStage智能运维平台是基于华为云赋能产业业务场景打造的一站式运维平台,它将华为内部沉淀多年的构建、管理、使用和维护大规模云原生应用的经验构建到平台上来,通过平台化的开放,让更多的能力、经验共享出来,实现向产业“经验即服务”的能力复制,大大降低了企业用户维护和使用云原生应用的门槛。 华为云AppStage智能运维平台围绕SRE的工作场景,基于内外部成功业务的优秀经验,把配套运维工具的流程、能力在实际产业业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智慧化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升。 父主题: 运维中心简介
  • docker 功能说明 监控docker容器的cpu、mem、fs、net信息,并将结果上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 由于容器ID与容器名称字段较长,暂时简写,实际上报数据为完整的容器ID和容器名称。 { "plugin_id": "docker", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": "mepcontainer-46919-t6fhr.novalocal", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1531908504000", #单位: | 类型:string | 说明:字符类型时间戳 "container_id":"430ca6167102", #单位: | 类型:string | 说明:容器ID "container_name":"k8s_container-0_predictservice", #单位: | 类型:string | 说明:容器名称 "cpu_usage": "0.04", #单位: | 类型:string | 说明:容器cpu使用率 "mem_usage": "13.02 ", #单位: | 类型:string | 说明:容器内存使用率 "memory_limit_kbytes": "7340032.0", #单位:kb| 类型:string | 说明:容器分配内存 "memory_usage_kbytes": "1028096.0", #单位:kb| 类型:string | 说明:容器已使用内存 "fs_index_node_usage": "12", #单位: | 类型:string | 说明:容器文件系统索引使用率 "fs_usage": "12", #单位: | 类型:string | 说明:容器文件系统使用率 "fs_limit_mbytes": "9951", #单位:mb| 类型:string | 说明:容器分配文件系统大小 "fs_usage_mbytes": "1081", #单位:mb| 类型:string | 说明:容器分配文件系统已使用大小 "txkbps": "196.34", #单位: | 类型:string | 说明:网卡发送的kBps数 "rxkbps": "0.06", #单位: | 类型:string | 说明:网卡接收的kBps数 } ] }
  • gpu 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • verify_os 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • icmp 功能说明 监控主机是否连通,并将结果上报给HCW。 参数配置 配置样例: proxy_address:10.22.0.xxx:xxxx # proxy地址 ip_segment:10.2.0.xx/xx, 10.2.0.xx/xx # 待检测主机IP段,支持填写以逗号分隔的多个IP段 消息样例及含义说明 { "plugin_id":"icmp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-23-0-130", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"1", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"0", #单位: | 类型:string | 说明:异常主机丢包率 }, { "node": " host-10-23-0-2", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"0", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"100", #单位: | 类型:string | 说明:异常主机丢包率 }] }
  • 步骤二:纳管VPC 在“VPC纳管”页面,单击“纳管”。 配置VPC纳管参数,配置参数如表2所示,配置完成后,单击“确定”。 纳管后该VPC会显示在VPC列表中。 表2 VPC纳管参数说明 参数名称 参数说明 HWS 账号 选择需要纳管的VPC所属的华为云账号。 HWS 区域 选择需要纳管的VPC所在的区域。 VPC名称 选择需要纳管的VPC。 终端节点子网 选择为需要纳管的VPC创建终端节点的子网。 说明: 如果该VPC下存在多个子网,其他子网需要与该子网保持网络互通。
  • 更多操作 您还可以进行以下操作。 仅演练问题的创建人才能编辑、删除问题以及创建、编辑、删除改进措施。 表3 演练问题管理 操作名称 操作步骤 编辑演练问题 在演练问题列表,单击待编辑的演练问题所在行“操作”列的“编辑”。 删除演练问题 在演练问题列表,单击待删除的演练问题所在行“操作”列的“删除”。 导出演练问题 在“演练问题管理”页面,单击“导出”。 编辑改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“编辑”。 删除改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“删除”。
  • logalarm 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #日志文件采集路径 消息样例及含义说明 插件按照配置参数的要求上报日志告警数据,日志告警数据样例: { "id": "Log_030104014395", #单位: | 类型:string | 说明:告警ID "use_custom_id":"" #单位: | 类型:string | 说明:是否使用用户自定义告警ID "alarm_name": "Interface getSC() success rate abnormal", #单位: | 类型:string | 说明:告警名称(支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。) "alarm_level": "critical", #单位: | 类型:string | 说明:告警级别(notice 提示、minor 一般、major 严重、critical 致命) "key_word": "-ERROR .*getSC", #单位: | 类型:string | 说明:日志匹配关键字,支持正则表达式 "match_file": "/opt/huawei/test/error.log", #单位: | 类型:string | 说明:日志文件绝对路径,支持变量、通配符,配置多个地址时需要使用逗号分隔 "matches": 2, #单位: | 类型:long | 说明:最大匹配次数 "number_of_match_period": 30, #单位: | 类型:long | 说明:匹配周期数,与matches和key_word组合使用(30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。) "number_of_nodata_period": 10, #单位: | 类型:long | 说明:无数据上报的周期数, 单独使用,与matches和key_word无关联(10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。) "description": "test" #单位: | 类型:string | 说明:告警详情,进一步丰富告警信息 }
  • alarmmonitor 周期性执行脚本,将指定文件中的业务告警数据,上报给HCW监控系统。 业务文件中写入的告警数据的站点site需要为cn_product_cbu,否则上报到监控服务后告警列表不会显示该告警。 参数配置 为插件配置业务文件采集路径: collect_file_path:${ALARM_HOME}/*.dat,/opt/huawei/alarm/hispace/*.dat 该配置为绝对路径,可以配置变量,并且能够把识别到的环境变量展开,可以配置通配符(*.),并将识别到的路径展开,可以配置多个路径,按逗号分隔。 如果使用了环境变量,要求在~/.bashrc中添加export命令进行配置。如export ALARM_HOME=/opt/huawei/alarm,在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 插件按行上报业务文件中的监控告警数据,告警上报的数据会根据产品ID、服务ID、level等信息生成一个唯一标识,该标识为告警的指纹信息,监控服务会依据指纹信息进行告警的判重,不同的上报源指纹信息不同,具体如下: CES上报:产品id、服务id、'alarm_id'_'metric_name'、'dimension'、告警级别,其中单引号内字段均为CES上报告警体中的原始字段,alarm_id为CES告警id,metric_name为指标名称,dimension一般为资源id。 AOM上报:产品id、服务id、'id'、'cluster_name'、告警级别,其中单引号内字段均为AOM上报告警体中的原始字段,id为AOM告警id,cluster_name一般为资源id。 监控服务上报:产品id、服务id、'id'、'source_tag'、告警级别,其中单引号内字段均为监控服务上报告警体中的原始字段。 aiops上报:租户id、产品id、服务id、'id',其中单引号内字段为aiops上报告警体中的原始字段。 监控告警数据样例如下: #上报告警 {     "id":"q20934uii2uss8i7", #单位: | 类型:string | 说明:告警ID     "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称     "level":"major", #单位: | 类型:string | 说明:告警级别     "site": "cn_product_cbu", #单位: | 类型:string | 说明:站点     "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID     "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID     "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID     "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID          "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源     "op_type":"firing", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警)     "details":"DownloadSuccess is less than 90% for 5m", #单位:| 类型:string | 说明:告警详情     "clear_type":"ADAC", #单位: | 类型:string | 说明:清除类型,固定写为ADAC,无具体逻辑含义     "start_timestamp":1514942958000, #单位: | 类型:long | 说明:告警开始时间戳     "end_timestamp":0 #单位: | 类型:long | 说明:告警结束时间戳     "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 } #清除告警 {     "id":"qjxswr8ge2no5mat", #单位: | 类型:string | 说明:告警ID     "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称     "level":"critical", #单位: | 类型:string | 说明:告警级别     "site": "cn_dev_default", #单位: | 类型:string | 说明:站点     "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID     "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID     "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID     "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID     "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源     "op_type":"resolved ", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警)     "start_timestamp":0, #单位: | 类型:long | 说明:告警开始时间戳     "end_timestamp":1515242958000 #单位: | 类型:long | 说明:告警结束时间戳     "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 }
  • sds_jmx 功能说明 执行Java程序,采集Java进程相关指标数据。 参数配置 配置样例: _filter_sds_ip:127.0.0.1 # 需要采集的进程所运行的主机,可远程采集 sds_authentication # jmx验证信息文件保存的路径 whitelist:ColumnFamily_app20170410_duplicate_bill_check_WriteLatency_Count #jmx指标白名单 blacklist":"" # 黑名单,jmx指标的objectname,采集到的指标中需要剔除的指标,逗号分隔 match_metrics_keyword # 指标匹配关键字,过滤出匹配的指标 消息样例及含义说明 { "plugin_id":"sds_jmx", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"bj-sds-ad-cs21-11-72-43", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "cluster_name":"bj-sds-ad-cs21", #单位: | 类型:string | 说明:集群名称 "sds_ip_id":"xxx.0.0.1", #单位: | 类型:string | 说明:采集进程的主机IP "sds_port_id":"7199" #单位: | 类型:string | 说明:采集进程的主机端口 "ColumnFamily_app20170410_duplicate_bill_check_WriteLatency_Count":"337727861", #单位: | 类型:string | 说明:jmx指标及指标值 }] }
  • dcs 功能说明 按照指定参数执行redis_port脚本,发现端口,并通过端口找到指定的cache文件,将其中的信息转成json格式并上报到HCW。 参数配置 配置样例: discovery_script:/tmp/redis_port.py # redis_port脚本的具体路径 result_path:/tmp/redis_{#REDIS_PORT}.cache # 保存redis信息的cache文件的路径 脚本支持指标返回非数字型字符串,对于需要采集的指标例如rgb_last_bgsave_status, 如果脚本返回结果为ok,插件会将指标变更为rgb_last_bgsave_status_var, 且上报值更改为1。 消息样例及含义说明 { "plugin_id":"dcs", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "uptime_in_days":"158", #单位: | 类型:string | 说明:指标值 "port_id":"6379" #单位: | 类型:string | 说明:端口 "loading":"1" #单位: | 类型:string | 说明:是否正在载入持久化文件,0为否,1为是 "used_memory":"36864" #单位: | 类型:string | 说明:Redis分配器分配的内存总量 "nstantaneous_ops_per_sec":"7" #单位: | 类型:string | 说明:服务器每秒中执行的命令数量 "latest_fork_usec":"0" #单位: | 类型:string | 说明:最近一次fork()操作耗费的时间 "rdb_last_bgsave_status_var":"1" #单位: | 类型:string | 说明:最后一次创建RDB文件的结果,0为失败, 1为成功 "client_biggest_input_buf":"0" #单位: | 类型:string | 说明:当前连接的客户端中,最大的输入缓存 "client_longest_output_list":"0" #单位: | 类型:string | 说明:当前的客户端连接中,最长的输出列表 "rdb_last_bgsave_time_sec":"0" #单位: | 类型:string | 说明:最后一次创建RDB文件耗费的秒数 "expired_keys":"79118" #单位: | 类型:string | 说明:过期而被自动删除的数据库键数量 }] }
  • mysql 功能说明 按照指定参数执行mysql脚本,并将采集结果上报到HCW。 参数配置 配置样例: mysql_role # mysql监控脚本入参 script:/tmp/mysql_monitor_1m.sh # mysql脚本路径 upload_interval:60 # mysql脚本采集周期 消息样例及含义说明 { "plugin_id":"mysql", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"fs-mysql-uniaccount-151-15-105", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "vip_ping":"0", #单位: | 类型:string | 说明:浮动IP是否能ping的通 "heartbeat_status":"0" #单位: | 类型:string | 说明:心跳状态 }] }
  • file_check 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • scriptcollet 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }
  • 运维面临的问题 快速迭代对稳定性持续冲击,业务上线速度和现网稳定性之间存在冲突,发布周期变短,可能存在每个版本都没有经过充分的现网验证。 各业务基于开源软件或者基于AOM、LTS、APM等自己构建,运维组织、人员能力及知识体系需要快速发展,无统一的数据接入、监控、诊断、数据治理体系,各工具能力参差不齐。 系统整体可用性依赖全栈可用性,运维人员需要利用数据被动变主动,及时发现问题,精准定位问题。 内部运维人员的操作可能带来业务安全的不确定性,外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露代价更大。
  • 运维中心的优势 简化运维管理:使用AppStage运维中心可以集中管理和监控所有的IT资源和服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期数据可视化,避免数据孤岛。 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、巡检和故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,包括集成了简洁高效的运维流程,提高自动化和智能化水平,在各个环节提升效率,减少人力投入。基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
  • 步骤三:创建视图 单指标查询视图/多指标组合查询视图 如果需要在大盘监控单个指标的报表(如折线型报表),可以创建单指标查询视图。 如果需要在大盘同时监控多个指标(如表格型报表),可以创建多指标组合查询视图。 在“指标仓库”页面,选择需创建视图的逻辑主体,然后单击“新建查询视图”,如图1所示。 图1 新建查询视图 配置查询视图参数,如表3所示,配置完成后,单击“保存”。 表3 新建查询视图参数说明 参数名称 参数说明 类型 视图类型默认为“QUERY”,不可修改。 数据源 选择视图使用的数据表。 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 描述 输入视图描述内容。 指标 选择需要计算的指标,可选择单指标或者多个指标。 projection 选择是否开启projection。 持久化视图/长期存储视图 持久化视图(自定义汇聚粒度)、长期存储视图(依次执行5分钟、1小时、1天汇聚粒度)可以持久化查询结果。这两种视图需要在查询视图的基础上进行创建。 在“指标仓库”页面,选择需创建视图的逻辑主体,默认显示“关系图模式”,可以单击页面已创建的指标或视图,弹出“指标”页面或“视图”页面。 也可以单击“列表模式”,切换至“列表模式”,在指标列表单击对应指标所在行的“查看详情”,弹出“指标”页面;或者单击“视图”,在视图列表单击对应视图所在行的“查看详情”,弹出“视图”页面。 在“指标”页面,选择已创建的单指标视图或多指标视图,单击视图的“操作”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图2所示。 或者在“视图”页面,单击“创建视图”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图3所示。 图2 指标详情页 图3 视图详情页 配置如下视图参数,配置完成后,单击“创建”。 配置Basic参数,具体参数如表4所示。 表4 Basic参数说明 参数名称 参数说明 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 任务名称 汇聚的任务名,默认与视图名一致。 描述 输入描述信息。 类型 根据选择创建的视图类型显示,持久化视图为PERSISTENT,长期存储视图为LONG_TERM。 任务类型 根据视图数据来源显示,不可修改。 调度集群 选择定时调度集群。 执行集群 选择执行汇聚的执行集群。 MPPDB执行集群 (长期存储视图包含该参数)选择执行分钟级、小时级、天级MPPDB汇聚的执行集群。 查询范围 设定任务查询时间范围,不填则默认每分钟执行一次。 例如设置为1小时,则查询时间区间为当前时间减1小时到当前时间(前闭后开)。 Auto Round 设置任务执行时间是否舍去分和秒,默认为“是”。 例如汇聚周期是1小时,那么不管是2:10,还是2:40触发任务,汇聚周期都会自动变为1:00~2:00;如果选否,那么汇聚周期就是1:10~2:10,以及1:40~2:40。 调度(固定时间) 让任务在固定时间执行,一般天级任务会修改此值,例如修改为每天2点执行,不涉及无须选择。 例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务。 调度(固定间隔) 设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无须选择。 例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。 汇聚时间提前 设置汇聚任务执行时选择之前的时间段。 例如汇聚时间提前1小时,每次查询的时间范围自动往前偏移1小时;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。 结果时间偏移 设置汇聚出的结果存入输出表的时间值。 例如结果时间偏移1小时,每次查询的数据存入MPPDB数据库的timestamp自动增加1小时。 配置Rule参数,具体参数如表5所示,配置完成后,单击“Build Statement”。 表5 Rule参数说明 参数名称 参数说明 表类型 默认显示视图数据表类型。 数据源 选择需要汇聚的数据表。 从数据源列表 分表场景时使用,如果选中了数据源A和从数据源列表B,会优先从B表匹配维度。 Indicators 选择汇聚任务需要计算的指标列表。 Order By 选择需要排序的维度。 limit 设置查询返回值个数,上限为200000。 分组维度 选择需要Groupby的维度。 配置Output参数,具体参数如表6所示。 表6 Output参数说明 参数名称 参数说明 输出表类型 选择存放汇聚结果的表(输出表)类型,默认为MPPDB。 集群名 选择输出表所在的集群名。 数据库名 选择输出表所在的数据库名。 表名 选择输出表的表名,选择前需要创建MPPDB表。 列名 选择输出表的所有列名。 查询结果列 汇聚结果的列名。 Column Mappings 根据输出表(MPPDB)选择对应的查询结果列。 单击已创建的持久化视图或长期存储视图,在“视图”页面单击“Start Task”,启动第一层任务。保证期望状态和实际状态都为“Running”,如下图图4所示。 图4 启动任务 单击“Create Hourly Task”,会自动创建小时级的MPPDB汇聚任务和表(TTL 默认1年),自动将5分钟级别的数据roll up成小时级的。再单击“Start Hourly Task”启动该任务,保证期望状态和实际状态都为“Running”。 单击“Create Daily Task”,会自动创建天级的MPPDB汇聚任务和表(TTL 默认2年),自动将小时级别的数据roll up成天级的。再单击“Start Daily Task”启动该任务,保证期望状态和实际状态都为“Running”。
  • 步骤二:创建指标 在“指标仓库”页面,单击已创建的逻辑主体。 单击逻辑主体页面的“新建指标”,选择“新建单个指标”。 配置指标参数,参数说明如表2所示,配置完成后,单击“创建”。 表2 配置指标参数说明 参数名称 参数说明 类型 选择指标类型。 英文名称 自定义英文名称。 中文名称 自定义中文名称。 指标等级 选择指标等级。 描述 输入描述信息。 开放名称 - 指标类型 根据指标的类型分为RequestCount、DelayTime、SuccessRate、FailureRate、Speed、Bandwidth。 逻辑主体 选择指标来源的逻辑主体。 标签列表 - 指标责任人 - 开放状态 - 抽象指标 - 是否多聚合字段 - 聚合类型 选择指标的统计方式。 聚合字段 指标的度量对象。 过滤器 依据业务限定条件,给指标设置过滤规则,支持AND、OR多层嵌套过滤条件,节点类型为NODE。 举例:有5个过滤条件ABCDE,过滤条件汇总后为(A AND B)OR (C AND D AND E),ABCDE即为NODE节点。
共100000条