华为云用户手册

  • 隔离域概述 隔离域是一个逻辑上的安全分组,为具有相同安全保护需求并相互信任的服务提供访问策略。当服务器加入到隔离域后,即受到这些访问规则的保护。 创建隔离域需要选择站点、环境、安全区域和VPC信息,其中VPC主要用于决定网络资源(子网、安全组、ACL)在哪里创建。创建隔离域后,再基于隔离域创建子网,然后再创建ACL或者安全组。 隔离域提供访问策略的实现,现在有ACL和安全组两种,ACL和安全组都是规则的集合。 父主题: 隔离域
  • 功能说明 下表介绍了监控服务具体的功能,您可以根据需要选择。 功能 功能描述 故障预防 构建开箱即用标准化巡检,增强构建场景可编排、任务可定义的自动化巡检能力,帮助SRE快速分析和发现业务在现网运行的风险,可视化度量支撑业务纵横治理,驱动业务改进,从而提升业务可靠性、可运维能力、用户体验等。 提供运维共性问题分享能力,避免同类问题重复出现。 故障检测 提供基于指标监控、告警、日志、事件管理的服务运行状态检测能力。 指标,提供出厂标准的BaaS服务指标和自有服务纵向指标,支持业务自定义指标能力。 告警,提供静态阈值和异常检测生成告警的能力,提供告警抑制、告警收敛、告警自动化分析和恢复能力。 日志,构建统一的日志模型,提供兼具开箱即用和自助的日志接入能力,支持存算分离,提高日志检索效率;提供虚机、容器统一的日志采集Agent;通过采集侧清晰和汇聚指标提取等能力降低日志成本,提高日志的可靠性。 Events,围绕故障快速诊断,构建以服务运行状态检测为目标的运维Events中心;构建全景化的、基于运维Events的故障诊断能力;定义标准Events模型,对接不同的Events源;提供规则匹配能力和Events跟踪管理能力;支持运营事件的接入,支持生成知识库和标签管理能力。 运行状况,提供基于指标、告警、事件管理和日志的服务运行状况监控能力;定义标准的服务运行状态。 故障诊断 专家诊断工具,聚合Nuwa Trace、WiseDB、XPMS和WiseWAN水晶球等专业诊断能力。 AI辅助诊断服务,提供自适应异常检测能力和全链路智能根因诊断能力;整合专家诊断能力,持续构建ELB、SLB、基础设施侧根因诊断能力;异常检测支持5分钟快速检测,故障诊断提供一键式配置能力;支持完成告警聚合、调用链根因诊断,多维下钻分析,日志根因诊断,流量溯源诊断,事件总结算法的整合。 故障通报 以运维事件为中心,提供事件的管理、通报、War Room和自动派生工单的能力;运维通报遵从运维事件通报机制和流程,工单派生可跟踪流程和历史处理情况。 故障恢复 基于运维知识经验及自动化决策能力, 构建标准化故障场景自恢复能力,提供标准故障场景的恢复预案。 故障改进 提供故障恢复后事后分析能力。 运维数仓 构建高可靠、高性能、开放高效、全流程开放的运维数仓能力,主要包括: 数据开发,构建从数据接入、聚合、清洗、分发、到存储计算的全流程开放的数据开发能力,支撑业务自助完成指标定义。 构建统一运维数仓,承载指标库、日志库、链路库和事件库数据资产。 数据治理,提供针对运维数仓的数据价值洞察分析能力,助力业务聚焦价值,降低成本。 运维RPA 提供运维场景化可编排能力的技术支持平台,满足运维巡检场景化、监控场景化、运维流程的技术支撑。 运维可视化 提供可定义的监控报表能力,提供移动办公能力。
  • 应用场景 企业数字化转型进入云原生阶段,从以“资源”为中心向以“应用”为中心转变,以云原生应用为运维对象带来了新的要求,这需要SRE在理解业务的基础上,不仅要保证系统持续高可用,而且要重视高效交付,同时要提升用户体验和帮助企业降低成本,这些都需要运维平台具备智能化运维能力。 华为云AppStage智能运维平台是基于华为云赋能产业业务场景打造的一站式运维平台,它将华为内部沉淀多年的构建、管理、使用和维护大规模云原生应用的经验构建到平台上来,通过平台化的开放,让更多的能力、经验共享出来,实现向产业“经验即服务”的能力复制,大大降低了企业用户维护和使用云原生应用的门槛。 华为云AppStage智能运维平台围绕SRE的工作场景,基于内外部成功业务的优秀经验,把配套运维工具的流程、能力在实际产业业务场景中持续打磨,基于AI持续构建运维活动“自动驾驶”能力,打造自动化、数据化、智慧化运维平台,围绕运维的“感知(数字化)、决策(智能化)、执行(自动化)”能力持续提升。 父主题: 运维中心简介
  • docker 功能说明 监控docker容器的cpu、mem、fs、net信息,并将结果上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 由于容器ID与容器名称字段较长,暂时简写,实际上报数据为完整的容器ID和容器名称。 { "plugin_id": "docker", #单位: | 类型:string | 说明:插件名 "metric": [ { "node": "mepcontainer-46919-t6fhr.novalocal", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1531908504000", #单位: | 类型:string | 说明:字符类型时间戳 "container_id":"430ca6167102", #单位: | 类型:string | 说明:容器ID "container_name":"k8s_container-0_predictservice", #单位: | 类型:string | 说明:容器名称 "cpu_usage": "0.04", #单位: | 类型:string | 说明:容器cpu使用率 "mem_usage": "13.02 ", #单位: | 类型:string | 说明:容器内存使用率 "memory_limit_kbytes": "7340032.0", #单位:kb| 类型:string | 说明:容器分配内存 "memory_usage_kbytes": "1028096.0", #单位:kb| 类型:string | 说明:容器已使用内存 "fs_index_node_usage": "12", #单位: | 类型:string | 说明:容器文件系统索引使用率 "fs_usage": "12", #单位: | 类型:string | 说明:容器文件系统使用率 "fs_limit_mbytes": "9951", #单位:mb| 类型:string | 说明:容器分配文件系统大小 "fs_usage_mbytes": "1081", #单位:mb| 类型:string | 说明:容器分配文件系统已使用大小 "txkbps": "196.34", #单位: | 类型:string | 说明:网卡发送的kBps数 "rxkbps": "0.06", #单位: | 类型:string | 说明:网卡接收的kBps数 } ] }
  • gpu 功能说明 采集GPU信息,每次采集都为每个GPU,以及总GPU维度分别生成消息,并上报给HCW。 执行nvidia-smi命令,分别获取每个GPU的GPU-Util、Bus-Id、mem_used、mem_total、mem_util信息,并整合总GPU信息上报给HCW。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"gpu", #单位: | 类型:string | 说明:插件名    "metric":{ "node": "bj-xen-pdc-241-202", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "_id":"GPU-0", #单位: | 类型:string | 说明:GPU编号,总GPU编号为GPU-ALL "_name":"Tesla P100-PCIE", #单位: | 类型:string | 说明:GPU型号 "bus_id":"0000:04:00.0", #单位: | 类型:string | 说明:GPU的Bus-Id "util":"61", #单位: | 类型:string | 说明:GPU使用率 "mem_used":"1385", #单位: | 类型:string | 说明:GPU已使用显存 "mem_total":"16276", #单位: | 类型:string | 说明:GPU显存总量 "mem_util":"8.50" #单位: | 类型:string | 说明:GPU显存使用率     } }
  • verify_os 功能说明 检测主机名是否有变更,并将检测结果返回HCW。 插件在HCW_Agent启动时,会将主机名存入HCW_Agent/temp/hostname.cache中,插件每个采集周期,会获取当前的主机名并与HCW_Agent/temp/hostname.cache中的主机名对比,若一致,返回0;不一致,返回1。 参数配置 不需要配置。 消息样例及含义说明 {    "plugin_id":"verify_os", #单位: | 类型:string | 说明:插件名    "metric":{ "node": " host-10-33-0-188", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "hostname":"1", #单位: | 类型:string | 说明:主机名对比结果,相同为0,不同为1 } }
  • icmp 功能说明 监控主机是否连通,并将结果上报给HCW。 参数配置 配置样例: proxy_address:10.22.0.xxx:xxxx # proxy地址 ip_segment:10.2.0.xx/xx, 10.2.0.xx/xx # 待检测主机IP段,支持填写以逗号分隔的多个IP段 消息样例及含义说明 { "plugin_id":"icmp", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-23-0-130", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"1", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"0", #单位: | 类型:string | 说明:异常主机丢包率 }, { "node": " host-10-23-0-2", #单位: | 类型:string | 说明:异常主机的主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "ping":"0", #单位: | 类型:string | 说明:异常主机连接状态:1可达;0不可达 "ping_loss":"100", #单位: | 类型:string | 说明:异常主机丢包率 }] }
  • 步骤二:纳管VPC 在“VPC纳管”页面,单击“纳管”。 配置VPC纳管参数,配置参数如表2所示,配置完成后,单击“确定”。 纳管后该VPC会显示在VPC列表中。 表2 VPC纳管参数说明 参数名称 参数说明 HWS 账号 选择需要纳管的VPC所属的华为云账号。 HWS 区域 选择需要纳管的VPC所在的区域。 VPC名称 选择需要纳管的VPC。 终端节点子网 选择为需要纳管的VPC创建终端节点的子网。 说明: 如果该VPC下存在多个子网,其他子网需要与该子网保持网络互通。
  • 更多操作 您还可以进行以下操作。 仅演练问题的创建人才能编辑、删除问题以及创建、编辑、删除改进措施。 表3 演练问题管理 操作名称 操作步骤 编辑演练问题 在演练问题列表,单击待编辑的演练问题所在行“操作”列的“编辑”。 删除演练问题 在演练问题列表,单击待删除的演练问题所在行“操作”列的“删除”。 导出演练问题 在“演练问题管理”页面,单击“导出”。 编辑改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“编辑”。 删除改进措施 在“改进措施”页面,单击待编辑措施所在行“操作”列的“删除”。
  • logalarm 功能说明 监控指定日志文件,配置日志匹配关键字,并按照配置参数的要求,生成告警并上报到HCW。 参数配置 collect_file_path #日志文件采集路径 消息样例及含义说明 插件按照配置参数的要求上报日志告警数据,日志告警数据样例: { "id": "Log_030104014395", #单位: | 类型:string | 说明:告警ID "use_custom_id":"" #单位: | 类型:string | 说明:是否使用用户自定义告警ID "alarm_name": "Interface getSC() success rate abnormal", #单位: | 类型:string | 说明:告警名称(支持配置变量{{$log_info}},上报告警时会替换成匹配到的最后一条ERROR日志;支持配置变量{{$all_matching_log}},上报告警时会替换成匹配到的所有ERROR日志,当alarm_name配置了变量{{$all_matching_log}}时,若产生告警且后续周期又匹配到了告警,新匹配到的告警会在原告警ID的基础上,产生一个新的告警,并上报到监控系统,告警清除时会清除当前告警和后续产生的告警;当alarm_name配置为空时,会读取文件中的所有内容,逐行检测并上报告警。) "alarm_level": "critical", #单位: | 类型:string | 说明:告警级别(notice 提示、minor 一般、major 严重、critical 致命) "key_word": "-ERROR .*getSC", #单位: | 类型:string | 说明:日志匹配关键字,支持正则表达式 "match_file": "/opt/huawei/test/error.log", #单位: | 类型:string | 说明:日志文件绝对路径,支持变量、通配符,配置多个地址时需要使用逗号分隔 "matches": 2, #单位: | 类型:long | 说明:最大匹配次数 "number_of_match_period": 30, #单位: | 类型:long | 说明:匹配周期数,与matches和key_word组合使用(30个周期内匹配2次以上,则产生告警;30个周期内匹配2次或者2次以下,则清除告警。) "number_of_nodata_period": 10, #单位: | 类型:long | 说明:无数据上报的周期数, 单独使用,与matches和key_word无关联(10个周期内有数据则产生告警,10个周期内无数据上报则清除告警。) "description": "test" #单位: | 类型:string | 说明:告警详情,进一步丰富告警信息 }
  • alarmmonitor 周期性执行脚本,将指定文件中的业务告警数据,上报给HCW监控系统。 业务文件中写入的告警数据的站点site需要为cn_product_cbu,否则上报到监控服务后告警列表不会显示该告警。 参数配置 为插件配置业务文件采集路径: collect_file_path:${ALARM_HOME}/*.dat,/opt/huawei/alarm/hispace/*.dat 该配置为绝对路径,可以配置变量,并且能够把识别到的环境变量展开,可以配置通配符(*.),并将识别到的路径展开,可以配置多个路径,按逗号分隔。 如果使用了环境变量,要求在~/.bashrc中添加export命令进行配置。如export ALARM_HOME=/opt/huawei/alarm,在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。 消息样例及含义说明 插件按行上报业务文件中的监控告警数据,告警上报的数据会根据产品ID、服务ID、level等信息生成一个唯一标识,该标识为告警的指纹信息,监控服务会依据指纹信息进行告警的判重,不同的上报源指纹信息不同,具体如下: CES上报:产品id、服务id、'alarm_id'_'metric_name'、'dimension'、告警级别,其中单引号内字段均为CES上报告警体中的原始字段,alarm_id为CES告警id,metric_name为指标名称,dimension一般为资源id。 AOM上报:产品id、服务id、'id'、'cluster_name'、告警级别,其中单引号内字段均为AOM上报告警体中的原始字段,id为AOM告警id,cluster_name一般为资源id。 监控服务上报:产品id、服务id、'id'、'source_tag'、告警级别,其中单引号内字段均为监控服务上报告警体中的原始字段。 aiops上报:租户id、产品id、服务id、'id',其中单引号内字段为aiops上报告警体中的原始字段。 监控告警数据样例如下: #上报告警 {     "id":"q20934uii2uss8i7", #单位: | 类型:string | 说明:告警ID     "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称     "level":"major", #单位: | 类型:string | 说明:告警级别     "site": "cn_product_cbu", #单位: | 类型:string | 说明:站点     "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID     "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID     "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID     "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID          "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源     "op_type":"firing", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警)     "details":"DownloadSuccess is less than 90% for 5m", #单位:| 类型:string | 说明:告警详情     "clear_type":"ADAC", #单位: | 类型:string | 说明:清除类型,固定写为ADAC,无具体逻辑含义     "start_timestamp":1514942958000, #单位: | 类型:long | 说明:告警开始时间戳     "end_timestamp":0 #单位: | 类型:long | 说明:告警结束时间戳     "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 } #清除告警 {     "id":"qjxswr8ge2no5mat", #单位: | 类型:string | 说明:告警ID     "name":"The IF getxxx is abnormal", #单位: | 类型:string | 说明:告警名称     "level":"critical", #单位: | 类型:string | 说明:告警级别     "site": "cn_dev_default", #单位: | 类型:string | 说明:站点     "tenant_id": "T006", #单位: | 类型:string | 说明:租户ID     "application_id": "com.huawei.wiseeye", #单位: | 类型:string | 说明:产品ID     "service_id": "com.huawei.wiseeyewatchservice", #单位: | 类型:string | 说明:服务ID     "env_id": "6132b864b7c6437691fa55c1f44dec4e", #单位: | 类型:string | 说明:可选, 环境ID     "source_tag":"host-10-22-0-36", #单位: | 类型:string | 说明:告警产生来源     "op_type":"resolved ", #单位: | 类型:string | 说明:告警操作类型(firing 产生告警、resolved 清除告警)     "start_timestamp":0, #单位: | 类型:long | 说明:告警开始时间戳     "end_timestamp":1515242958000 #单位: | 类型:long | 说明:告警结束时间戳     "receive":"xx8000000", #单位: | 类型:string | 说明:可选, 告警接收人名单 }
  • sds_jmx 功能说明 执行Java程序,采集Java进程相关指标数据。 参数配置 配置样例: _filter_sds_ip:127.0.0.1 # 需要采集的进程所运行的主机,可远程采集 sds_authentication # jmx验证信息文件保存的路径 whitelist:ColumnFamily_app20170410_duplicate_bill_check_WriteLatency_Count #jmx指标白名单 blacklist":"" # 黑名单,jmx指标的objectname,采集到的指标中需要剔除的指标,逗号分隔 match_metrics_keyword # 指标匹配关键字,过滤出匹配的指标 消息样例及含义说明 { "plugin_id":"sds_jmx", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"bj-sds-ad-cs21-11-72-43", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "cluster_name":"bj-sds-ad-cs21", #单位: | 类型:string | 说明:集群名称 "sds_ip_id":"xxx.0.0.1", #单位: | 类型:string | 说明:采集进程的主机IP "sds_port_id":"7199" #单位: | 类型:string | 说明:采集进程的主机端口 "ColumnFamily_app20170410_duplicate_bill_check_WriteLatency_Count":"337727861", #单位: | 类型:string | 说明:jmx指标及指标值 }] }
  • dcs 功能说明 按照指定参数执行redis_port脚本,发现端口,并通过端口找到指定的cache文件,将其中的信息转成json格式并上报到HCW。 参数配置 配置样例: discovery_script:/tmp/redis_port.py # redis_port脚本的具体路径 result_path:/tmp/redis_{#REDIS_PORT}.cache # 保存redis信息的cache文件的路径 脚本支持指标返回非数字型字符串,对于需要采集的指标例如rgb_last_bgsave_status, 如果脚本返回结果为ok,插件会将指标变更为rgb_last_bgsave_status_var, 且上报值更改为1。 消息样例及含义说明 { "plugin_id":"dcs", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "uptime_in_days":"158", #单位: | 类型:string | 说明:指标值 "port_id":"6379" #单位: | 类型:string | 说明:端口 "loading":"1" #单位: | 类型:string | 说明:是否正在载入持久化文件,0为否,1为是 "used_memory":"36864" #单位: | 类型:string | 说明:Redis分配器分配的内存总量 "nstantaneous_ops_per_sec":"7" #单位: | 类型:string | 说明:服务器每秒中执行的命令数量 "latest_fork_usec":"0" #单位: | 类型:string | 说明:最近一次fork()操作耗费的时间 "rdb_last_bgsave_status_var":"1" #单位: | 类型:string | 说明:最后一次创建RDB文件的结果,0为失败, 1为成功 "client_biggest_input_buf":"0" #单位: | 类型:string | 说明:当前连接的客户端中,最大的输入缓存 "client_longest_output_list":"0" #单位: | 类型:string | 说明:当前的客户端连接中,最长的输出列表 "rdb_last_bgsave_time_sec":"0" #单位: | 类型:string | 说明:最后一次创建RDB文件耗费的秒数 "expired_keys":"79118" #单位: | 类型:string | 说明:过期而被自动删除的数据库键数量 }] }
  • mysql 功能说明 按照指定参数执行mysql脚本,并将采集结果上报到HCW。 参数配置 配置样例: mysql_role # mysql监控脚本入参 script:/tmp/mysql_monitor_1m.sh # mysql脚本路径 upload_interval:60 # mysql脚本采集周期 消息样例及含义说明 { "plugin_id":"mysql", #单位: | 类型:string | 说明:插件名 "metric":[{ "node":"fs-mysql-uniaccount-151-15-105", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp":"1532595900000", #单位: | 类型:string | 说明:字符类型时间戳 "vip_ping":"0", #单位: | 类型:string | 说明:浮动IP是否能ping的通 "heartbeat_status":"0" #单位: | 类型:string | 说明:心跳状态 }] }
  • file_check 功能说明 查看文件是否存在以及查看文件的大小,以Byte为单位,将结果上报到HCW。 参数配置 配置样例: path:/tmp/error_*.log #路径为绝对路径,支持通配符。 消息样例及含义说明 { "plugin_id":"file_check", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "exists":"1", #单位: | 类型:string | 说明:文件是否存在,1表示存在,0表示不存在 "size":"80", #单位:Byte | 类型:string | 说明:表示文件大小 }] }
  • scriptcollet 功能说明 执行脚本命令或者读取指定文件内容,并将结果上报给HCW。 参数配置 配置样例: type:script # 采集方式,可选填 script(采集脚本)或者 path(采集文件)。 ex_path:/opt/huawei/monitor/disk.sh # 脚本执行路径或者采集文件路径。 _filter_key_id:/opt/huawei/monitor/disk.sh # 多实例插件的key,此参数是为了支持多实例插件上报使用,只需要保证多个实例中该值均不同,建议与ex_path值保持一致。 scriptcollect为多实例插件,即scriptcollect插件可以配置多组参数,但需要每组参数均不相同。 消息样例及含义说明 { "plugin_id":"scriptcollect", #单位: | 类型:string | 说明:插件名 "metric":[{ "node": " host-10-22-0-170", #单位: | 类型:string | 说明:主机名,消息来源标识 "timestamp": "1518078026000", #单位: | 类型:string | 说明:字符类型时间戳 "key_id":"/opt/huawei/monitor/disk.sh", #单位: | 类型:string | 说明:对应模板配置的key值 "collect_value":"80", #单位: | 类型:string | 说明:执行脚本命令或者读取指定文件内容上报的值 }] }
  • 运维中心的优势 简化运维管理:使用AppStage运维中心可以集中管理和监控所有的IT资源和服务,大大简化了运维管理的复杂性。通过统一的Console,SRE可以轻松地管理服务器、数据库、网络和应用等各个方面,实现应用生命周期数据可视化,避免数据孤岛。 提高运维效率:AppStage运维中心提供了自动化的运维流程和任务调度功能,可以自动执行常见的运维任务,如监控、巡检和故障处理等,节省SRE大量的时间和精力,让运维团队能够更专注于解决重要的问题和提供高价值的服务。 实现故障快速恢复:AppStage运维中心具备强大的故障监测和自动恢复能力,当系统出现故障或异常时,AIOps可以及时发现并采取相应的措施进行修复,最大限度地减少停机时间和业务中断,减轻可能出现的业务损失和客户流失。 提供实时监控和报告:AppStage运维中心集成了丰富的监控和报表功能,可以实时监控系统的性能指标、资源利用率和安全状态等。通过可视化的报表和图表,SRE可以随时了解系统的运行情况,进行及时的决策和调整。同时,这些信息也可以用于向上级管理层的汇报和运维成果展示。 降低运维成本:AppStage运维中心沉淀了华为在运维领域的管理经验,包括集成了简洁高效的运维流程,提高自动化和智能化水平,在各个环节提升效率,减少人力投入。基于人工智能技术提供数据分析,优化资源配置,预测未来需求,以降低IT资源成本。企业将应用迁移至华为云后,通过AppStage运维中心来自主管理和运维,可以自然使用上述能力获得成本优势。 提高运维安全性:AppStage运维中心通过身份验证、访问控制和加密等技术,保护企业应用不受攻击、侵入、干扰和破坏,确保客户数据的安全性和完整性,同时通过自动化变更、操作防呆等减少SRE的误操作风险。
  • 运维面临的问题 快速迭代对稳定性持续冲击,业务上线速度和现网稳定性之间存在冲突,发布周期变短,可能存在每个版本都没有经过充分的现网验证。 各业务基于开源软件或者基于AOM、LTS、APM等自己构建,运维组织、人员能力及知识体系需要快速发展,无统一的数据接入、监控、诊断、数据治理体系,各工具能力参差不齐。 系统整体可用性依赖全栈可用性,运维人员需要利用数据被动变主动,及时发现问题,精准定位问题。 内部运维人员的操作可能带来业务安全的不确定性,外部安全攻击渗透频率日趋增多,攻击技术手段越发高超,数据泄露代价更大。
  • 步骤三:创建视图 单指标查询视图/多指标组合查询视图 如果需要在大盘监控单个指标的报表(如折线型报表),可以创建单指标查询视图。 如果需要在大盘同时监控多个指标(如表格型报表),可以创建多指标组合查询视图。 在“指标仓库”页面,选择需创建视图的逻辑主体,然后单击“新建查询视图”,如图1所示。 图1 新建查询视图 配置查询视图参数,如表3所示,配置完成后,单击“保存”。 表3 新建查询视图参数说明 参数名称 参数说明 类型 视图类型默认为“QUERY”,不可修改。 数据源 选择视图使用的数据表。 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 描述 输入视图描述内容。 指标 选择需要计算的指标,可选择单指标或者多个指标。 projection 选择是否开启projection。 持久化视图/长期存储视图 持久化视图(自定义汇聚粒度)、长期存储视图(依次执行5分钟、1小时、1天汇聚粒度)可以持久化查询结果。这两种视图需要在查询视图的基础上进行创建。 在“指标仓库”页面,选择需创建视图的逻辑主体,默认显示“关系图模式”,可以单击页面已创建的指标或视图,弹出“指标”页面或“视图”页面。 也可以单击“列表模式”,切换至“列表模式”,在指标列表单击对应指标所在行的“查看详情”,弹出“指标”页面;或者单击“视图”,在视图列表单击对应视图所在行的“查看详情”,弹出“视图”页面。 在“指标”页面,选择已创建的单指标视图或多指标视图,单击视图的“操作”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图2所示。 或者在“视图”页面,单击“创建视图”,在下拉列表中选择“创建持久化视图”或者“创建长期存储视图”,如图3所示。 图2 指标详情页 图3 视图详情页 配置如下视图参数,配置完成后,单击“创建”。 配置Basic参数,具体参数如表4所示。 表4 Basic参数说明 参数名称 参数说明 英文名称 视图英文名,尽量使用英文简写,不超过50个字符,单词之间使用下划线分隔。 中文名称 视图中文名,不超过20个字符。 任务名称 汇聚的任务名,默认与视图名一致。 描述 输入描述信息。 类型 根据选择创建的视图类型显示,持久化视图为PERSISTENT,长期存储视图为LONG_TERM。 任务类型 根据视图数据来源显示,不可修改。 调度集群 选择定时调度集群。 执行集群 选择执行汇聚的执行集群。 MPPDB执行集群 (长期存储视图包含该参数)选择执行分钟级、小时级、天级MPPDB汇聚的执行集群。 查询范围 设定任务查询时间范围,不填则默认每分钟执行一次。 例如设置为1小时,则查询时间区间为当前时间减1小时到当前时间(前闭后开)。 Auto Round 设置任务执行时间是否舍去分和秒,默认为“是”。 例如汇聚周期是1小时,那么不管是2:10,还是2:40触发任务,汇聚周期都会自动变为1:00~2:00;如果选否,那么汇聚周期就是1:10~2:10,以及1:40~2:40。 调度(固定时间) 让任务在固定时间执行,一般天级任务会修改此值,例如修改为每天2点执行,不涉及无须选择。 例如设置3小时40分钟,则每天3点40执行任务;设置24小时40分钟,则每天0点40执行任务。 调度(固定间隔) 设置执行任务的时间间隔,一般是小时任务和分钟任务会修改此值,不涉及无须选择。 例如设置6小时,则每6小时执行一次,即0点、6点、12点、18点执行;配合固定时间调度,间隔时间配置为6小时,固定时间配置为10分钟,则每天的0:10、6:10、12:10、18:10执行。 汇聚时间提前 设置汇聚任务执行时选择之前的时间段。 例如汇聚时间提前1小时,每次查询的时间范围自动往前偏移1小时;当查询范围是小时、天的时候,一般不需要配置;分钟汇聚任务,由于延迟原因,一般都需配置。 结果时间偏移 设置汇聚出的结果存入输出表的时间值。 例如结果时间偏移1小时,每次查询的数据存入MPPDB数据库的timestamp自动增加1小时。 配置Rule参数,具体参数如表5所示,配置完成后,单击“Build Statement”。 表5 Rule参数说明 参数名称 参数说明 表类型 默认显示视图数据表类型。 数据源 选择需要汇聚的数据表。 从数据源列表 分表场景时使用,如果选中了数据源A和从数据源列表B,会优先从B表匹配维度。 Indicators 选择汇聚任务需要计算的指标列表。 Order By 选择需要排序的维度。 limit 设置查询返回值个数,上限为200000。 分组维度 选择需要Groupby的维度。 配置Output参数,具体参数如表6所示。 表6 Output参数说明 参数名称 参数说明 输出表类型 选择存放汇聚结果的表(输出表)类型,默认为MPPDB。 集群名 选择输出表所在的集群名。 数据库名 选择输出表所在的数据库名。 表名 选择输出表的表名,选择前需要创建MPPDB表。 列名 选择输出表的所有列名。 查询结果列 汇聚结果的列名。 Column Mappings 根据输出表(MPPDB)选择对应的查询结果列。 单击已创建的持久化视图或长期存储视图,在“视图”页面单击“Start Task”,启动第一层任务。保证期望状态和实际状态都为“Running”,如下图图4所示。 图4 启动任务 单击“Create Hourly Task”,会自动创建小时级的MPPDB汇聚任务和表(TTL 默认1年),自动将5分钟级别的数据roll up成小时级的。再单击“Start Hourly Task”启动该任务,保证期望状态和实际状态都为“Running”。 单击“Create Daily Task”,会自动创建天级的MPPDB汇聚任务和表(TTL 默认2年),自动将小时级别的数据roll up成天级的。再单击“Start Daily Task”启动该任务,保证期望状态和实际状态都为“Running”。
  • 步骤二:创建指标 在“指标仓库”页面,单击已创建的逻辑主体。 单击逻辑主体页面的“新建指标”,选择“新建单个指标”。 配置指标参数,参数说明如表2所示,配置完成后,单击“创建”。 表2 配置指标参数说明 参数名称 参数说明 类型 选择指标类型。 英文名称 自定义英文名称。 中文名称 自定义中文名称。 指标等级 选择指标等级。 描述 输入描述信息。 开放名称 - 指标类型 根据指标的类型分为RequestCount、DelayTime、SuccessRate、FailureRate、Speed、Bandwidth。 逻辑主体 选择指标来源的逻辑主体。 标签列表 - 指标责任人 - 开放状态 - 抽象指标 - 是否多聚合字段 - 聚合类型 选择指标的统计方式。 聚合字段 指标的度量对象。 过滤器 依据业务限定条件,给指标设置过滤规则,支持AND、OR多层嵌套过滤条件,节点类型为NODE。 举例:有5个过滤条件ABCDE,过滤条件汇总后为(A AND B)OR (C AND D AND E),ABCDE即为NODE节点。
  • 方案优势 云下IDC侧的业务网络互访很多是通过IP地址而非域名,上云前如果改造IDC侧网络,会导致上云周期延长、迁移期间业务中断,并且网络改造往往增加运维成本。 使用企业交换机后,上云不用修改IDC侧IP地址,减少业务对环境感知,加快上云进度。 云下IDC侧的每个子网通常承载几十种不同的业务,如果按照子网粒度进行迁移,几十种业务一次性上云存在较大风险,无法满足业务连续性需求。 使用企业交换机后,按照“虚拟机”粒度迁移上云,支持业务系统灰度上云,应对核心业务分批上云,避免业务在迁移过程中受损,减少上云风险。
  • 方案架构 华为云支持通过企业交换机(Enterprise Switch,ESW) 构建客户IDC和云上二层网络互通,在二层网络内,实现主机粒度迁移,助力客户IDC迁移上云期间业务不中断,不修改IP地址的诉求。 通过企业交换机迁移IDC的组网示例如图2所示,本示例中将IDC内的VM-B在不修改IP的前提下,迁移到云上。迁移过程说明如下: 使用云专线或VPN建立云上与云下IDC隧道子网之间的三层网络通信。因为企业交换机建立二层通信网络时,依赖隧道子网之间的三层网络。 创建企业交换机、建立二层连接、配置VXLAN交换机,建立云上与云下IDC的二层网络通信。 将主机VM-B(10.0.1.8)迁移到云上ECS-B(10.0.1.21),检查好VM-B和ECS-B的网络通信后,待业务低谷时期关闭IDC内的VM-B。 短暂关闭VM-B时,业务主要由IDC内的VM-A(10.0.1.131)承载,因此不会中断业务。 此处为了验证VM-B和ECS-B之前的正常通信,刚迁移上云的ECS-B和VM-B的IP地址不能一样,否则无法正常通信。 关闭IDC内的VM-B后,将云上的ECS-B地址由10.0.1.21改为10.0.1.8,此时业务流量会通过企业交换机转发到云上的ECS-B处理,确保迁移后不改变主机IP地址。 同时,云上的ECS-B和IDC内的VM-A也可以自由互访,就像还位于同一个子网中。 图2 企业交换机迁移组网
  • 约束与限制 对于使用虚拟专用网络(VPN)对接企业交换机的场景,请您先提交工单给虚拟专用网络服务,确认您的虚拟专用网络是否支持和企业交换机进行VXLAN对接,如果不支持,需要联系客服开通虚拟专用网络的对接企业交换机能力。 对于使用云专线(DC)对接企业交换机的场景,请您先提交工单给云专线服务,确认您的云专线是否支持和企业交换机进行对接,如果不支持,需要联系客服开通云专线的对接企业交换机能力。 如果您的IDC需要与华为云企业交换机对接来建立云下和云上二层网络通信,那么IDC侧的交换机需要支持VXLAN功能。以下为您列举部分支持VXLAN功能的交换机,仅供参考。 华为交换机:Huawei CE58、CE68、CE78、CE88系列支持VXLAN,例如CE6870、CE6875、CE6881、CE6863、CE12800。 其他厂商交换机:例如Cisco Nexus 9300、 锐捷RG-S6250、 H3C S6520。
  • 示例流程 图1 给用户授予ESW权限流程 创建用户组并授权 在IAM控制台创建用户组,并授予VPC只读权限“VPCReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限。 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择企业交换机,进入ESW主界面,单击右上角“购买”,尝试购买企业交换机,如果无法购买企业交换机(假设当前权限仅包含VPCReadOnlyAccess),表示“VPCReadOnlyAccess”已生效。 在“服务列表”中选择弹性云服务器(假设当前策略仅包含VPCReadOnlyAccess),如果提示权限不足,表示“VPCReadOnlyAccess”已生效。
  • 操作步骤(锐捷RG-S6250交换机) 远端隧道网关的配置方法:在VXLAN交换机和企业交换机之间建立VXLAN隧道,以便将云下主机发送的二层报文封装为IP报文后发到企业交换机。VXLAN交换机的下行二层子接口配置VXLAN与VLAN封装规则,用来识别用户网络中的报文所属的VXLAN。 配置前进入全局配置模式。 配置示例: Ruijie#configure 创建VXLAN。 配置示 Ruijie(config)#vxlan 5010 本步骤VXLAN ID 5010,必须和表1创建二层连接时,远端接入信息的隧道号保持一致。 进入loopback接口视图,配置隧道IP。 配置示例: Ruijie(config)#interface loopback 0 Ruijie(config-if-Loopback 0)#ip address 2.2.2.2 255.255.255.255 Ruijie(config-if-Loopback 0)# exi 对于新规划的远端地址,即VXLAN交换机的接口IP地址(包括Loopback接口IP地址),要确认下其到企业交换机隧道子网路由是否可达,如果不通,需要在VXLAN交换机上配置路由。此处VXLAN交换机可以是汇聚交换机或者核心交换机,请根据网络实际规划选择。 创建VXLAN隧道。 创建OverlayTunnel1接口,该接口用于静态创建Overlay隧道。 配置示例: Ruijie(config)#interface overlayTunnel 1 指定Overlay隧道的源IP,即为用于建隧道的loopback口IP地址。 配置示例: Ruijie(config-if-OverlayTunnel 1)#tunnel source 2.2.2.2 指定Overlay隧道的目的IP,即为企业交换机隧道子网IP。 配置示例: Ruijie(config-if-OverlayTunnel 1)#tunnel destination 10.0.6.3 Ruijie(config-if-OverlayTunnel 1)#exit 配置VXLAN实例关联OverlayTunnel接口。 配置示例: Ruijie(config)#vxlan 5010 Ruijie(config-vxlan)#tunnel-interface OverlayTunnel 1 Ruijie(config-vxlan)#exit 同一企业交换机上创建多个(最多6个)二层连接场景,需和此企业交换机建多条VXLAN,可以创建多个VXLAN实例和同一个OverlayTunnel接口关联。如:OverlayTunnel1。 同一VXLAN交换机和多个企业交换机连接场景,此场景比较少用,可以创建多个OverlayTunnel接口与同一个VXLAN关联。如:OverlayTunnel1、OverlayTunnel2。 由于芯片限制,S6250产品VXLAN不支持多条隧道出口为同一个物理出口,并且还需要封装出不同的DMAC+VID信息。详情可咨询锐捷交换机技术支持。 创建二层子接口配置VXLAN与vlan封装规则。 在链路聚合口AggregatePort1创建AggregatePort 1.100子接口,接收vlan为100的数据报文,并封装为VXLAN 5010通过隧道转发。 配置示例: Ruijie(config)#interface AggregatePort 1.100 Ruijie(config-subif-AggregatePort 1.100)#encapsulation dot1q s-vid 100 Ruijie(config-subif-AggregatePort 1.100)#encapsulation vxlan 5010 Ruijie(config-subif-AggregatePort 1.100)#exit 在交换机物理以太接口上创建以太网服务实例,方法类似。 在系统视图下,执行如下命令查看VXLAN的配置状态。 show vxlan 5010 VXLAN配置状态 VXLAN 5010 Symmetric property : FALSE Router Interface : - Extend VLAN : - VTEP Adjacency Count: 1 VTEP Adjacency List : Interface Source IP Destination IP Type ---------------------- --------------- --------------- ------- OverlayTunnel 1 2.2.2.2 10.0.6.3 static
  • 操作场景 本指导用户在云下IDC侧的VXLAN隧道交换机上配置隧道网关,建立远端二层连接子网在IDC侧的VXLAN隧道。 本文针对用户IDC的常见组网场景提供配置参考,以华为CE6850交换机、锐捷RG-S6250交换机、H3C S6520交换机为例,如需更多配置排查,相关命令可参考实际交换机型号的产品文档。 操作步骤(华为CE6850交换机) 操作步骤(锐捷RG-S6250交换机) 操作步骤(H3C S6520交换机)
  • 操作步骤(华为CE6850交换机) 远端隧道网关的配置方法:配置IDC隧道交换机,将二层子网VLAN的流量引流到隧道。 目前大部分CE交换机不支持三层子接口转发已经封装的VXLAN报文,因此VXLAN上行(对接线上企业交换机)不能使用三层子接口,可使用VLANIF接口替代。 登录隧道交换机,执行命令system-view,进入系统视图。 进入loopback 0接口视图,配置隧道IP。 配置示例: interface loopback 0 ip address 2.2.2.2 255.255.255.255 执行命令quit,退出接口视图,返回到系统视图。 执行命令bridge-domain,进入BD视图,配置BD所对应VXLAN的VNI。 配置示例: bridge-domain 10 vxlan vni 5010 执行命令quit,退出BD视图,返回到系统视图。 创建二层子接口,通过子接口将二层网络指定的VLAN引流到隧道。 配置示例: interface 10ge 1/0/2.1 mode l2 encapsulation dot1q vid 100 bridge-domain 10 执行命令interface nve,创建NVE接口,并进入NVE接口视图,配置VXLAN隧道源端VTEP的IP地址:2.2.2.2。 配置示例: interface nve1 source 2.2.2.2 在NVE接口视图下,执行命令vni,配置VNI的头端复制列表。 配置示例: vni 5010 head-end peer-list 10.0.6.3 在系统视图下,执行如下命令查看VXLAN的配置状态。 display vxlan vni 5010 verbose 图2 VXLAN配置状态 up表示隧道状态正常。
  • 约束与限制 如果您的IDC需要与华为云企业交换机对接来建立云下和云上二层网络通信,那么IDC侧的交换机需要支持VXLAN功能,建议您新购VXLAN交换机与ESW对接。如果有高可靠性要求,建议VXLAN交换机组进行容灾部署。 以下为您列举部分支持VXLAN功能的交换机,仅供参考。 华为交换机:Huawei CE58、CE68、CE78、CE88系列支持VXLAN,例如CE6870、CE6875、CE6881、CE6863、CE12800。 其他厂商交换机:例如Cisco Nexus 9300、 锐捷RG-S6250、 H3C S6520。
  • ESW权限 默认情况下,管理员创建的IAM用户没有任何权限,需要将其加入用户组,并给用户组授予角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 ESW部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域(如华北-北京1)对应的项目(cn-north-1)中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问ESW时,需要先切换至授权区域。 ESW服务没有独立的系统权限,和VPC共用一套系统权限,VPC系统权限如表1所示,包括了VPC的所有系统角色。由于华为云各服务之间存在业务交互关系,VPC的角色依赖其他服务的角色实现功能。因此给用户授予VPC的角色时,需要同时授予依赖的角色,VPC的权限才能生效。 表1 VPC系统权限 策略名称 描述 策略类别 依赖关系 VPC FullAccess 虚拟私有云的所有执行权限。 系统策略 如果您需要使用VPC流日志功能,则依赖云日志服务的只读权限LTS ReadOnlyAccess。 VPC ReadOnlyAccess 虚拟私有云的只读权限。 系统策略 无 VPC Administrator 虚拟私有云的大部分操作权限,不包括创建、修改、删除、查看安全组以及安全组规则。 拥有该权限的用户必须同时拥有Tenant Guest权限。 系统角色 依赖Tenant Guest策略,在同项目中勾选依赖的策略。
  • 使用限制 ESW不支持IPv6报文,且不支持云下往云上转发未知单播、广播、组播(除VRRP协议外)的IP报文。 不支持云下服务器访问云上的高级网络功能,如VPC对等连接、VPC路由表、ELB以及NAT网关等。 对于使用云专线(DC)对接企业交换机的场景,请您先提交工单给云专线服务,确认您的云专线是否支持和企业交换机进行对接,若不支持,需要联系客服开通云专线的对接企业交换机能力。 对于使用虚拟专用网络(VPN)对接企业交换机的场景,请您先提交工单给虚拟专用网络服务,确认您的虚拟专用网络是否支持和企业交换机进行VXLAN对接,若不支持,需要联系客服开通虚拟专用网络的对接企业交换机能力。 ESW支持对接VPN场景是指经典型VPN,不支持对接专业版VPN和共享型VPN。 云上和云下二层网络互通后,云下子网网关地址要和云上子网网关地址保持一致,否则可能导致云下子网网关地址和云上虚拟机的IP地址冲突,引发通信异常。 每个企业交换机最多支持10000个IP二层互通(即包含通过该企业交换机打通的所有二层网段IP),且最多同时支持连接1000个云下二层网段IP。 使用企业交换机建立云上与云下之间的二层网络时,客户侧负责建设IDC机房的VXLAN网络,包括VXLAN交换机准备、物理网络连通、对接云专线或者虚拟专用网络等。 ESW支持MAC Proxy转发能力,通过ARP报文代理,使云上和云下主机相互不可见对端的实际MAC地址。在业务报文转发时,云上主机收到的云下报文源MAC是二层连接主接口的MAC,云下主机收到的云上报文源MAC是实例隧道口的MAC。如果您的业务场景需要感知实际主机MAC或者有基于MAC的安全策略等,不支持使用ESW。 通常,服务器端会通过ARP学习确定回复报文的目的MAC地址,但是某些主机或硬件设备(如F5负载均衡器)配置了原路径返回能力,回复报文的目的MAC地址取自请求报文的源MAC地址,当通过ESW实现云上云下三层访问场景时,可能会出现网络不通问题,请提前排查。 例如,先通过ESW打通云上和云下192.168.3.0/24网段,当云上主机192.168.2.2/24需要跨网段访问云下主机192.168.3.3/24时,云上请求报文会先通过VPC路由,再经过ESW送往云下主机,云下对应回复报文走路由发回云上,可以经过云专线/VPN。如果云下主机配置了原路径返回,云下回复报文的目的MAC地址不是192.168.3.0/24的网关MAC地址,是取对应请求报文的源MAC地址,即ESW的MAC地址。这样云下回复报文的目的MAC地址错误,导致网络不通。 ESW使用VXLAN协议时,VXLAN协议头占用50个字节,报文长度会增加。请您确保VXLAN报文经过的线下网络设备支持大帧(Jumbo Frames,即MTU大于1500字节的以太网帧)通过,否则会导致大包不通。 不同设备厂商处理大帧的方式不同,其中部分厂商默认大帧放通,例如华为。部分厂商默认大帧不放通,例如思科。 如果您的IDC需要与华为云企业交换机对接来建立云下和云上二层网络通信,那么IDC侧的交换机需要支持VXLAN功能。以下为您列举部分支持VXLAN功能的交换机,仅供参考。 华为交换机:Huawei CE58、CE68、CE78、CE88系列支持VXLAN,例如CE6870、CE6875、CE6881、CE6863、CE12800。 其他厂商交换机:例如Cisco Nexus 9300、 锐捷RG-S6250、 H3C S6520。
共100000条