华为云用户手册

云容器引擎 CCE-命名空间权限（Kubernetes RBAC授权）:自定义命名空间权限（kubectl）

自定义命名空间权限（kubectl） kubectl访问CCE集群是通过集群上生成的配置文件（kubeconfig.json）进行认证，kubeconfig.json文件内包含用户信息，CCE根据用户信息的权限判断kubectl有权限访问哪些Kubernetes资源。即哪个用户获取的kubeconfig.json文件，kubeconfig.json就拥有哪个用户的信息，这样使用kubectl访问时就拥有这个用户的权限。而用户拥有的权限就是集群权限（IAM授权）与命名空间权限（Kubernetes RBAC授权）的关系所示的权限。除了使用cluster-admin、admin、edit、view这4个最常用的clusterrole外，您还可以通过定义Role和RoleBinding来进一步对命名空间中不同类别资源（如Pod、Deployment、Service等）的增删改查权限进行配置，从而做到更加精细化的权限控制。 Role的定义非常简单，指定namespace，然后就是rules规则。如下面示例中的规则就是允许对default命名空间下的Pod进行GET、LIST操作。 kind: Role apiVersion: rbac.authorization.k8s.io/v1 metadata: namespace: default # 命名空间 name: role-example rules: - apiGroups: [""] resources: ["pods"] # 可以访问pod verbs: ["get", "list"] # 可以执行GET、LIST操作 apiGroups表示资源所在的API分组。 resources表示可以操作哪些资源：pods表示可以操作Pod，其他Kubernetes的资源如deployments、configmaps等都可以操作 verbs表示可以执行的操作：get表示查询一个Pod，list表示查询所有Pod。您还可以使用create（创建）, update（更新）, delete（删除）等操作词。详细的类型和操作请参见使用 RBAC 鉴权。有了Role之后，就可以将Role与具体的用户绑定起来，实现这个的就是RoleBinding了。如下所示。 kind: RoleBinding apiVersion: rbac.authorization.k8s.io/v1 metadata: name: RoleBinding-example namespace: default annotations: CCE.com/IAM: 'true' roleRef: kind: Role name: role-example apiGroup: rbac.authorization.k8s.io subjects: - kind: User name: 0c97ac3cb280f4d91fa7c0096739e1f8 # user-example的用户ID apiGroup: rbac.authorization.k8s.io 这里的subjects就是将Role与IAM用户绑定起来，从而使得IAM用户获取role-example这个Role里面定义的权限，如下图所示。图4 RoleBinding绑定Role和用户 subjects下用户的类型还可以是用户组，这样配置可以对用户组下所有用户生效。 subjects: - kind: Group name: 0c96fad22880f32a3f84c009862af6f7 # 用户组ID apiGroup: rbac.authorization.k8s.io 使用IAM用户user-example连接集群，获取Pod信息，发现可获取到Pod的信息。 # kubectl get pod NAME READY STATUS RESTARTS AGE deployment-389584-2-6f6bd4c574-2n9rk 1/1 Running 0 4d7h deployment-389584-2-6f6bd4c574-7s5qw 1/1 Running 0 4d7h deployment-3895841-746b97b455-86g77 1/1 Running 0 4d7h deployment-3895841-746b97b455-twvpn 1/1 Running 0 4d7h nginx-658dff48ff-7rkph 1/1 Running 0 4d9h nginx-658dff48ff-njdhj 1/1 Running 0 4d9h # kubectl get pod nginx-658dff48ff-7rkph NAME READY STATUS RESTARTS AGE nginx-658dff48ff-7rkph 1/1 Running 0 4d9h 然后查看Deployment和Service，发现没有权限；再查询kube-system命名空间下的Pod信息，发现也没有权限。这就说明IAM用户user-example仅拥有default这个命名空间下GET和LIST Pod的权限，与前面定义的没有偏差。 # kubectl get deploy Error from server (Forbidden): deployments.apps is forbidden: User "0c97ac3cb280f4d91fa7c0096739e1f8" cannot list resource "deployments" in API group "apps" in the namespace "default" # kubectl get svc Error from server (Forbidden): services is forbidden: User "0c97ac3cb280f4d91fa7c0096739e1f8" cannot list resource "services" in API group "" in the namespace "default" # kubectl get pod --namespace=kube-system Error from server (Forbidden): pods is forbidden: User "0c97ac3cb280f4d91fa7c0096739e1f8" cannot list resource "pods" in API group "" in the namespace "kube-system"

云容器引擎 CCE
云容器引擎 CCE-命名空间权限（Kubernetes RBAC授权）:命名空间权限（kubernetes RBAC授权）

命名空间权限（kubernetes RBAC授权）命名空间权限是基于Kubernetes RBAC能力的授权，通过权限设置可以让不同的用户或用户组拥有操作不同Kubernetes资源的权限。Kubernetes RBAC API定义了四种类型：Role、ClusterRole、RoleBinding与ClusterRoleBinding，这四种类型之间的关系和简要说明如下： Role：角色，其实是定义一组对Kubernetes资源（命名空间级别）的访问规则。 RoleBinding：角色绑定，定义了用户和角色的关系。 ClusterRole：集群角色，其实是定义一组对Kubernetes资源（集群级别，包含全部命名空间）的访问规则。 ClusterRoleBinding：集群角色绑定，定义了用户和集群角色的关系。 Role和ClusterRole指定了可以对哪些资源做哪些动作，RoleBinding和ClusterRoleBinding将角色绑定到特定的用户、用户组或ServiceAccount上。如下图所示。图1 角色绑定在CCE控制台可以授予用户或用户组命名空间权限，可以对某一个命名空间或全部命名空间授权，CCE控制台默认提供如下ClusterRole。 view（只读权限）：对全部或所选命名空间下大多数资源的只读权限。 edit（开发权限）：对全部或所选命名空间下多数资源的读写权限。当配置在全部命名空间时能力与运维权限一致。 admin（运维权限）：对全部命名空间下大多数资源的读写权限，对节点、存储卷，命名空间和配额管理的只读权限。 cluster-admin（管理员权限）：对全部命名空间下所有资源的读写权限。 drainage-editor：节点排水操作权限，可执行节点排水。 drainage-viewer：节点排水只读权限，仅可查看节点排水状态，无法执行节点排水。除了使用上述常用的ClusterRole外，您还可以通过定义Role和RoleBinding来进一步对全局资源（如Node、PersistentVolumes、CustomResourceDefinitions等）和命名空间中不同类别资源（如Pod、Deployment、Service等）的增删改查权限进行配置，从而做到更加精细化的权限控制。

云容器引擎 CCE
云容器引擎 CCE-命名空间权限（Kubernetes RBAC授权）:注意事项

注意事项任何用户创建集群后，CCE会自动为该用户添加该集群的所有命名空间的cluster-admin权限，也就是说该用户允许对集群以及所有命名空间中的全部资源进行完全控制。联邦用户由于每次登录注销都会改变用户ID，所以权限用户会显示已删除，此情况下请勿删除该权限，否则会导致鉴权失败。此种情况下建议在CCE为某个用户组创建cluster-admin权限，将联邦用户加入此用户组。拥有Security Administrator（IAM除切换角色外所有权限）权限的用户（如账号所在的admin用户组默认拥有此权限），才能在CCE控制台命名空间权限页面进行授权操作。

云容器引擎 CCE
云容器引擎 CCE-命名空间权限（Kubernetes RBAC授权）:配置命名空间权限（控制台）

配置命名空间权限（控制台） CCE中的命名空间权限是基于Kubernetes RBAC能力的授权，通过权限设置可以让不同的用户或用户组拥有操作不同Kubernetes资源的权限。登录CCE控制台，在左侧导航栏中选择“权限管理”。在右边下拉列表中选择要添加权限的集群。在右上角单击“添加权限”，进入添加授权页面。在添加权限页面，确认集群名称，选择该集群下要授权使用的命名空间，例如选择“全部命名空间”，选择要授权的用户或用户组，再选择具体权限。对于没有IAM权限的用户，给其他用户和用户组配置权限时，无法选择用户和用户组，此时支持填写用户ID或用户组ID进行配置。图2 配置命名空间权限其中自定义权限可以根据需要自定义，选择自定义权限后，在自定义权限一行右侧单击新建自定义权限，在弹出的窗口中填写名称并选择规则。创建完成后，在添加权限的自定义权限下拉框中可以选择。自定义权限分为ClusterRole或Role两类，ClusterRole或Role均包含一组代表相关权限的规则，详情请参见使用RBAC鉴权。 ClusterRole：ClusterRole是一个集群级别的资源，可设置集群的访问权限。 Role：Role用于在某个命名空间内设置访问权限。当创建Role时，必须指定该Role所属的命名空间。图3 自定义权限单击“确定”。

云容器引擎 CCE
云容器引擎 CCE-命名空间权限（Kubernetes RBAC授权）:集群权限（IAM授权）与命名空间权限（Kubernetes RBAC授权）的关系

集群权限（IAM授权）与命名空间权限（Kubernetes RBAC授权）的关系拥有不同集群权限（IAM授权）的用户，其拥有的命名空间权限（Kubernetes RBAC授权）不同。表1给出了不同用户拥有的命名空间权限详情。表1 不同用户拥有的命名空间权限用户类型 1.13及以上版本的集群拥有Tenant Administrator权限的用户（例如账号）全部命名空间权限拥有CCE Administrator权限的IAM用户全部命名空间权限拥有CCE FullAccess或者CCE ReadOnlyAccess权限的IAM用户按Kubernetes RBAC授权拥有Tenant Guest权限的IAM用户按Kubernetes RBAC授权

云容器引擎 CCE
云容器引擎 CCE-通过Kubectl命令行创建ELB Ingress:前提条件

前提条件 Ingress为后端工作负载提供网络访问，因此集群中需提前部署可用的工作负载。若您无可用工作负载，可参考创建无状态负载（Deployment）、创建有状态负载（StatefulSet）或创建守护进程集（DaemonSet）部署示例nginx工作负载。为上述工作负载配置Service，ELB Ingress支持的Service类型请参见Ingress支持的Service类型。独享型ELB规格必须支持应用型（HTTP/HTTPS），且网络类型必须支持私网（有私有IP地址）。

云容器引擎 CCE
云容器引擎 CCE-通过Kubectl命令行创建ELB Ingress:networking.k8s.io/v1版本Ingress说明

networking.k8s.io/v1版本Ingress说明 CCE在v1.23版本集群开始Ingress切换到networking.k8s.io/v1版本。 v1版本参数相较v1beta1参数有如下区别。 ingress类型由annotations中kubernetes.io/ingress.class变为使用spec.ingressClassName字段。 backend的写法变化。每个路径下必须指定路径类型pathType，支持如下类型。 ImplementationSpecific: 对于这种路径类型，匹配方法取决于具体Ingress Controller的实现。在CCE中会使用ingress.beta.kubernetes.io/url-match-mode指定的匹配方式，这与v1beta1方式相同。 Exact：精确匹配 URL 路径，且区分大小写。 Prefix：基于以 / 分隔的 URL 路径前缀匹配。匹配区分大小写，并且对路径中的元素逐个匹配。路径元素指的是由 / 分隔符分隔的路径中的标签列表。

云容器引擎 CCE
云容器引擎 CCE-购买Standard/Turbo集群:步骤三：插件选择

步骤三：插件选择单击“下一步：插件选择”，选择创建集群时需要安装的插件。基础功能参数说明 CCE容器网络插件 (Yangtse CNI) 集群默认安装的基础插件，为集群内的Pod提供网络连通、公网访问、安全隔离等网络能力。 CCE 容器存储 (Everest) 默认安装CCE容器存储（Everest），可为集群提供基于 CSI 的容器存储能力，支持对接云上云硬盘等存储服务。 CoreDNS 域名解析默认安装CoreDNS域名解析插件，可为集群提供域名解析、连接云上 DNS 服务器等能力。节点本地域名解析加速可选插件。勾选后自动安装节点本地域名解析加速插件，通过在集群节点上运行 DNS 缓存代理来提高集群 DNS 性能。可观测性参数说明云原生监控插件可选插件。勾选后自动安装云原生监控插件，为集群提供普罗指标采集能力，并将指标上报至指定的AOM实例。轻量化模式暂不支持基于自定义普罗语句的HPA，若需要相关功能，可在集群创建完成后手动安装全量的插件。 AOM采集的基础指标免费，自定义指标将由AOM服务进行收费，详情请参见价格详情。关于如何采集自定义指标，请参见使用云原生监控插件监控自定义指标。云原生日志采集插件可选插件。勾选后自动安装云原生日志采集插件，将日志上报至 LTS 的日志采集器。集群创建完成后可在 CCE 日志中心页面对采集规则进行查询与管理。 LTS创建日志组免费，并每月赠送每个账号一定量免费日志采集额度，超过免费额度部分将产生费用（价格计算器）。关于如何采集自定义指标，请参见通过云原生日志采集插件采集容器日志。 CCE 节点故障检测可选插件。勾选后自动安装CCE节点故障检测插件，安装后可为集群提供节点故障检测、隔离能力，帮助您及时识别节点问题。

云容器引擎 CCE
云容器引擎 CCE-购买Standard/Turbo集群:步骤四：插件配置

步骤四：插件配置单击“下一步：插件配置”，配置插件。基础功能参数说明 CCE容器网络插件 (Yangtse CNI) 不支持配置。 CCE 容器存储 (Everest) 不支持配置。集群创建完成后，可前往“插件中心”修改配置。 CoreDNS 域名解析不支持配置。集群创建完成后，可前往“插件中心”修改配置。节点本地域名解析加速不支持配置。集群创建完成后，可前往“插件中心”修改配置。可观测性参数说明云原生监控插件选择指标上报的AOM实例。如果没有可用实例，您可以单击“新建实例”进行创建。 AOM采集的基础指标免费，自定义指标将由AOM服务进行收费，详情请参见价格详情。关于如何采集自定义指标，请参见使用云原生监控插件监控自定义指标。云原生日志采集插件选择需要采集的日志。开启后将自动创建一个名称为k8s-log-{clusterId}的日志组，并为每个勾选的日志类型创建一个日志流。容器日志：采集容器标准输出日志，对应的日志流名称为stdout-{clusterId}。 Kubernetes事件：采集Kubernetes日志，对应的日志流名称为event-{clusterId}。 Kubernetes审计日志：采集Master控制平面审计日志，对应的日志流名称为audit-{clusterId}。控制面组件日志：采集Master控制平面（包括 kube-apiserver、 kube-controller-manage 和 kube-scheduler）日志，对应的日志流名称分别为kube-apiserver-{clusterId}、kube-controller-manage-{clusterId}、kube-scheduler-{clusterId}。如果不开启日志采集能力。集群创建后可以前往 CCE 日志中心页面重新开启。 LTS创建日志组免费，并每月赠送每个账号一定量免费日志采集额度，超过免费额度部分将产生费用（价格计算器）。关于如何采集自定义指标，请参见通过云原生日志采集插件采集容器日志。 CCE 节点故障检测不支持配置。集群创建完成后，可前往“插件中心”修改配置。

云容器引擎 CCE
云容器引擎 CCE-购买Standard/Turbo集群:步骤二：配置集群

步骤二：配置集群在“购买集群”页面，填写集群配置参数。基础配置参数说明集群类型根据需求选择“CCE Standard集群”或“CCE Turbo集群”。 CCE Standard集群：标准版本集群，提供高可靠、安全的商业级容器集群服务。 CCE Turbo集群：拥有更高性能的云原生网络，提供云原生混部调度能力，可实现更高的资源利用率和更广的全场景覆盖。关于集群类型差异详情，请参见集群类型对比。计费模式根据需求选择集群的计费模式。包年/包月：预付费模式，按订单的购买周期计费，适用于可预估资源使用周期的场景，价格比按需计费模式更优惠。选择该计费模式时，需要设置“购买时长”并选择是否自动续费（按月购买时自动续费周期为1个月，按年购买时自动续费周期则为1年）。按需计费：后付费模式，按资源的实际使用时长计费，可以随时开通/删除资源。集群名称请输入集群名称，同一账号下集群不可重名。企业项目该参数仅对开通企业项目的企业客户账号显示。选择某企业项目（如：default）后，集群、集群下节点、集群安全组、节点安全组和自动创建的节点EIP（弹性公网IP）将创建到所选企业项目下。为方便管理资源，在集群创建成功后，建议不要修改集群下节点、集群安全组、节点安全组的企业项目。企业项目是一种云资源管理方式，企业项目管理服务提供统一的云资源按项目管理，以及项目内的资源管理、成员管理。了解更多企业项目相关信息，请查看企业管理。集群版本选择集群使用的Kubernetes版本。集群规模集群支持管理的最大节点数量，请根据业务场景选择。创建完成后支持扩容，不支持缩容，详情请参见变更集群规格。集群master实例数选择集群控制平面的节点（master实例）数量。控制平面节点由系统自动托管，会部署Kubernetes集群的管控面组件，如 kube-apiserver，kube-controller-manager，kube-scheduler 等组件。 3实例（高可用）：创建3个控制平面节点，确保集群高可用。单实例：您的集群只会创建一个控制平面节点。您还可以指定master实例的分布策略，默认为自动分配。自动分配：即随机分配，尽可能将控制节点随机分布在不同可用区以提高容灾能力。若某可用区资源不足，将分配至资源充足的可用区，优先保障集群创建成功，可能无法保障可用区级容灾。自定义分配：自定义选择每台控制节点的位置。单实例场景下，您可以选择一个可用区进行部署；多实例场景下，您可以选择多种分配场景：可用区：通过把控制节点创建在不同的可用区中实现容灾。主机：通过把控制节点创建在相同可用区下的不同主机中实现容灾。自定义：用户自行决定每台控制节点所在的位置。网络配置集群网络涉及节点、容器和服务，强烈建议您详细了解集群的网络以及容器网络模型，具体请参见网络概述。表1 集群网络配置参数说明虚拟私有云选择集群所在的虚拟私有云VPC，如没有可选项可以单击右侧“新建虚拟私有云”创建。创建后不可修改。子网选择节点所在子网，如没有可选项可以单击右侧“新建子网”创建。创建后子网不可修改。默认安全组您可选择使用CCE自动生成的安全组，或选择已有安全组作为节点默认安全组。须知：节点默认安全组必须放通指定端口来保证集群内部正常通信，否则将无法成功创建节点，安全组端口配置说明请参考集群安全组规则配置。启用IPv6 开启后将支持通过IPv6地址段访问集群资源，包括节点，工作负载等。 v1.15及以上版本容器隧道网络的CCE Standard集群支持开启IPv4/IPv6双栈，并在v1.23版本中进入GA（Generally Available）阶段。 v1.23.8-r0、v1.25.3-r0及以上版本的CCE Turbo集群支持开启IPv4/IPv6双栈。 VPC网络模型的集群暂不支持开启IPv4/IPv6双栈。具体请参见如何通过CCE搭建IPv4/IPv6双栈集群？。表2 容器网络配置参数说明容器网络模型 CCE Standard集群支持选择“VPC网络”和“容器隧道网络”。 CCE Turbo集群支持选择“云原生网络2.0”。如需了解更多网络模型差异，请参见容器网络模型对比。容器网段（CCE Standard集群设置）设置容器使用的网段，决定了集群下容器的数量上限。VPC网络模型支持添加多个容器网段，且支持集群创建后添加容器网段，请参见扩展集群容器网段。容器子网（CCE Turbo集群设置）选择容器所在子网，如没有可选项可以单击右侧“新建子网”创建。容器子网决定了集群下容器的数量上限，创建后支持新增子网。表3 服务网络配置参数说明服务网段同一集群下容器互相访问时使用的Service资源的网段。决定了Service资源的上限。创建后不可修改。服务转发模式支持IPVS和iptables两种转发模式，具体请参见iptables与IPVS如何选择。 iptables：社区传统的kube-proxy模式。适用于Service数量较少或客户端会出现大量并发短链接的场景。IPv6集群不支持iptables模式。 IPVS：吞吐更高，速度更快的转发模式。适用于集群规模较大或Service数量较多的场景。 IPv6服务网段仅CCE Turbo集群开启IPv6双栈时需要设置，创建后不可修改。高级配置（可选）参数说明证书认证系统生成：默认开启X509认证模式，X509是一种非常通用的证书格式。自有证书：您可以将自定义证书添加到集群中，用自定义证书进行认证。您需要分别上传自己的CA根证书、客户端证书和客户端证书私钥。注意：请上传小于1MB的文件，CA根证书和客户端证书上传格式支持.crt或.cer格式，客户端证书私钥仅支持上传未加密的证书私钥。客户端证书有效期需要5年以上。上传的CA根证书既给认证代理使用，也用于配置kube-apiserver聚合层，如不合法，集群将无法成功创建。从1.25版本集群开始，Kubernetes不再支持使用SHA1WithRSA、ECDSAWithSHA1算法生成的证书认证，推荐使用SHA256算法生成的证书进行认证。开启CPU管理策略支持为工作负载实例设置独占CPU核的功能，详情请参见CPU管理策略。开启过载控制过载控制开启后，将根据控制节点的资源压力，动态调整请求并发量，维护控制节点和集群的可靠性。详情请参见集群过载控制。开启对华为分布式云(homezone/cloudpond)支持集群可以统一管理数据中心和边缘的计算资源，用户可以根据业务诉求将容器部署到合适的区域。该功能仅CCE Turbo集群支持，且需要提前注册智能边缘小站，详情请参见在CCE Turbo集群中使用分布式云资源。告警中心告警中心提供完善的集群告警能力，使您的集群在运行过程中发生故障及时预警，确保业务稳定。开启后将会创建默认告警规则，并发送告警通知到所选择的联系组。详细介绍请参见通过告警中心一键配置告警。资源标签通过为资源添加标签，可以对资源进行自定义标记，实现资源的分类。说明：如您的账号归属某个组织，且该组织已经设定云容器引擎服务的相关标签策略，则需按照标签策略规则为集群添加标签。标签如果不符合标签策略的规则，则可能会导致集群创建失败，请联系组织管理员了解标签策略详情。您可以在TMS中创建“预定义标签”，预定义标签对所有支持标签功能的服务资源可见，通过使用预定义标签可以提升标签创建和迁移效率。具体请参见创建预定义标签。 KEY字符集规范： key不能为空，长度1~128个半角字符 _sys_开头属于系统标签，租户不能输入可用 UTF-8 格式表示的字母(包含中文)、数字和空格，以及以下字符： _ . : / = + - @ 建议正则：^((?!_sys_)[\\p{L}\\p{Z}\\p{N}_.:\\/=+\\-@]*)$ VALUE字符集规范： VALUE长度 0~255 可用 UTF-8 格式表示的字母(包含中文)、数字和空格，以及以下字符： _ . : / = + - @ 建议正则：^([\p{L}\p{Z}\p{N}_.:\/=+\-@]*)$ 资源标签值可以为空（empty or null）预定义标签值不可以为空集群描述支持200个英文字符。

云容器引擎 CCE
云容器引擎 CCE-CCE AI套件（Ascend NPU）:版本记录

版本记录表2 CCE AI套件（Ascend NPU）插件版本记录插件版本支持的集群版本更新特性 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题 2.0.5 v1.21 v1.23 v1.25 v1.27 v1.28 适配CCE v1.28集群支持存活探针检查机制 1.2.14 v1.19 v1.21 v1.23 v1.25 v1.27 支持NPU监控 1.2.9 v1.19 v1.21 v1.23 v1.25 v1.27 适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 1.2.2 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.2.1 v1.19 v1.21 v1.23 适配CCE v1.23集群 1.1.8 v1.15 v1.17 v1.19 v1.21 适配CCE v1.21集群 1.1.2 v1.15 v1.17 v1.19 配置seccomp默认规则 1.1.1 v1.15 v1.17 v1.19 兼容CCE v1.15集群 1.1.0 v1.17 v1.19 适配CCE v1.19集群 1.0.8 v1.13 v1.15 v1.17 适配D310 C75驱动 1.0.6 v1.13 v1.15 v1.17 支持昇腾C75驱动 1.0.5 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件 1.0.3 v1.13 v1.15 v1.17 支持容器里使用huawei NPU设备的管理插件

云容器引擎 CCE
云容器引擎 CCE-CCE AI套件（Ascend NPU）:NPU驱动卸载

NPU驱动卸载请登录节点，通过 /var/log/ascend_seclog/operation.log 获取驱动操作记录，确认最后一次安装的驱动 run 包；若该日志不存在，则一般是用 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的；找到驱动安装包后，执行 bash {run 包名称} --uninstall 命令即可卸载，卸载成功后根据提示决定是否重启节点。登录需要卸载NPU驱动的节点，查看 /var/log/ascend_seclog/operation.log 是否存在。若 /var/log/ascend_seclog/operation.log 日志存在，查看驱动安装日志，可查找到驱动安装记录。若 /var/log/ascend_seclog/operation.log 日志不存在，则可能是通过 npu_x86_latest.run或 npu_arm_latest.run 驱动合一包安装的，可通过 /usr/local/HiAI/driver/ 路径是否存在进行确认。 NPU驱动合一包一般放在 /root/d310_driver 目录下，其他驱动安装包一般放在 /root/npu-drivers 目录下。找到驱动安装包后，执行 bash {run 包路径} --uninstall 命令即可卸载，以 Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run 为例： bash /root/npu-drivers/Ascend310-hdk-npu-driver_6.0.rc1_linux-x86-64.run --uninstall 根据提示信息确认是否需要重启节点（当前使用的NPU驱动安装和卸载都需要重启节点才能生效）。

云容器引擎 CCE
云容器引擎 CCE-CCE AI套件（Ascend NPU）:如何确认节点NPU驱动已安装完成

如何确认节点NPU驱动已安装完成 NPU驱动安装成功后需要重启节点才能生效，且重启节点前需要确认驱动已经安装完成，否则驱动将无法生效，NPU资源不可用。驱动安装完成确认方式如下：在集群 “插件中心”页面，单击插件名称查看插件“实例列表”。查看该节点上部署的 npu-driver-installer 实例状态为“运行中”。若在NPU驱动安装完成前就重启了节点，可能导致驱动安装失败，节点重启后集群“节点管理”页面对应的节点会显示“昇腾驱动未就绪”。此时需要先卸载该节点上的NPU驱动，再重启 npu-driver-installer Pod，才能重新安装NPU驱动，按上述步骤确认驱动安装完成后再重启节点。驱动卸载方式请参见NPU驱动卸载。

云容器引擎 CCE
云容器引擎 CCE-CCE AI套件（Ascend NPU）:约束与限制

约束与限制集群中使用“AI加速型”节点时必须安装CCE AI套件（Ascend NPU）插件。 “AI加速型”节点迁移后会重置节点，如果目标集群huawei-npu插件开启了“驱动选择”功能（仅插件版本为1.2.5及以上时支持），且选择了NPU节点机型对应的驱动，节点迁移后将自动安装NPU驱动，驱动安装完成后需要重启节点才能生效。否则不会自动安装NPU驱动，需要手动重新安装。若已在节点池的“安装后执行脚本”设置了NPU驱动安装命令，且开启了“驱动选择”功能并选择了对应机型的NPU驱动，节点池扩容会导致前端设置的安装命令和npu-driver-installer Pod 同时在新增节点上安装驱动，可能导致安装的驱动和预期不符或安装失败。因此，不建议在huawei-npu驱动选择功能已开启的情况下，对已设置“安装后执行脚本”NPU驱动安装命令的节点池进行扩容，或在创建新节点池时设置“安装后执行脚本”用于安装NPU驱动。

云容器引擎 CCE
云容器引擎 CCE-CCE AI套件（Ascend NPU）:安装插件

安装插件登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”，在右侧找到CCE AI套件（Ascend NPU）插件，单击“安装”。选择是否开启驱动选择（仅插件版本为1.2.5及以上时支持）。开启：可根据NPU机型不同指定相应的驱动版本，驱动维护更灵活。根据不同的适用机型选择是否启用驱动，启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”，您也可以选择“自定义驱动”并填写完整的驱动地址。插件将根据用户针对指定机型选择的驱动版本进行驱动安装。仅对未安装NPU驱动的节点生效，已安装 NPU 驱动的节点会保持现状。升级或编辑插件参数时修改驱动版本也只对未安装 NPU 驱动的节点生效。驱动安装成功后需要重启节点才能生效，驱动安装成功确认方式请参见如何确认节点NPU驱动已安装完成。插件卸载不会自动删除已安装的NPU驱动，如需卸载，卸载方式请参见NPU驱动卸载。关闭：无法根据用户诉求指定驱动版本，无法依靠插件进行驱动维护。当不开启驱动选择时，如从控制台创建NPU节点，控制台会自动补充NPU驱动（用户无法指定版本和类型）安装命令，并在安装完成后自动重启节点；如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。支持的NPU卡类型和对应的操作系统规格如下： NPU卡类型支持的操作系统 D310 EulerOS 2.5 x86、CentOS 7.6 x86、EulerOS 2.9 x86、EulerOS 2.8 arm 设置NPU参数，该插件默认使用如下参数。插件提供的默认NPU参数可满足大多数的使用场景，您无需修改。 { "check_frequency_failed_threshold": 100, "check_frequency_fall_times": 3, "check_frequency_gate": false, "check_frequency_recover_threshold": 100, "check_frequency_rise_times": 2, "container_path": "/usr/local/HiAI_unused", "host_path": "/usr/local/HiAI_unused" } 单击“安装”。

云容器引擎 CCE
云容器引擎 CCE-通过AOM配置自定义告警:在SMN创建主题

在SMN创建主题 SMN（Simple Message Notification，消息通知服务）是向订阅者主动推送消息的服务，订阅者可以是电子邮件、短信、HTTP和HTTPS等。主题是消息发布或客户端订阅通知的特定事件类型。它作为发送消息和订阅通知的信道，为发布者和订阅者提供一个可以相互交流的通道。您需要创建一个主题，并订阅。具体方法请参见创建主题和订阅主题。订阅主题后，请前往您的订阅终端（邮件或短信）手动确认添加订阅，消息通知才可生效。

云容器引擎 CCE
云容器引擎 CCE-Grafana:安装插件

安装插件登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”，在右侧找到Grafana，单击“安装”。在安装插件页面，设置“规格配置”。表1 Grafana插件规格配置参数参数说明插件规格该插件可配置“自定义”规格。容器选择“自定义”规格时，您可根据需求调整插件实例的容器规格。设置插件支持的“参数配置”。表2 Grafana插件参数配置参数参数说明存储卷声明类型安装Grafana需创建存储卷用于存储本地数据，卸载插件时Grafana的存储卷不会删除。选择“云硬盘”类型时，需选择“云硬盘类型”，不同局点支持的云硬盘类型可能不同，请以控制台选择项为准。创建云硬盘会收取存储费用，并占用云硬盘的配额。选择“专属存储”类型时，需选择“专属实例”，创建的存储卷将创建在对应的存储池中。容量 (GiB) 云硬盘的大小默认为5GiB。您可以在创建完成后对存储卷进行扩容，详情请参见相关操作。对接AOM 将普罗数据上报至 AOM 服务。开启后，可选择对应的AOM实例。采集的基础指标免费，自定义指标将由AOM服务进行收费，详情请参见价格详情。对接AOM需要用户具备一定权限，目前仅华为云/华为账号，或者在admin用户组下的用户支持此操作。设置插件实例的“调度策略”。表3 插件调度配置参数参数说明节点亲和不配置：插件实例不指定节点亲和调度。指定节点调度：指定插件实例部署的节点。若不指定，将根据集群默认调度策略进行随机调度。指定节点池调度：指定插件实例部署的节点池。若不指定，将根据集群默认调度策略进行随机调度。自定义亲和策略：填写期望插件部署的节点标签实现更灵活的调度策略，若不填写将根据集群默认调度策略进行随机调度。同时设置多条自定义亲和策略时，需要保证集群中存在同时满足所有亲和策略的节点，否则插件实例将无法运行。容忍策略容忍策略与节点的污点能力配合使用，允许（不强制）插件的 Deployment 实例调度到带有与之匹配的污点的节点上，也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。插件会对实例添加针对node.kubernetes.io/not-ready和node.kubernetes.io/unreachable污点的默认容忍策略，容忍时间窗为60s。详情请参见容忍策略。单击“安装”。待插件安装完成后，选择对应的集群，然后单击左侧导航栏的“插件中心”，可筛选“已安装插件”查看相应的插件。

云容器引擎 CCE
云容器引擎 CCE-Grafana:使用说明

使用说明如需通过公网访问Grafana图表，您需要为Grafana容器实例绑定LoadBalancer类型的服务。登录CCE控制台，选择一个已安装Grafana插件的集群，在左侧导航栏中选择“服务”。单击右上角“YAML创建”，为Grafana创建一个公网LoadBalancer类型Service。 apiVersion: v1 kind: Service metadata: name: grafana-lb #服务名称，可自定义 namespace: monitoring labels: app: grafana annotations: kubernetes.io/elb.id: 038ff*** #请替换为集群所在VPC下的ELB实例ID，且ELB实例为公网访问类型 spec: ports: - name: cce-service-0 protocol: TCP port: 80 #服务端口号，可自定义 targetPort: 3000 #Grafana的默认端口号，无需更改 selector: app: grafana type: LoadBalancer 创建完成后在浏览器访问“负载均衡公网IP地址:服务端口”，访问Grafana并选择合适的DashBoard，即可以查到相应的聚合内容。图1 Grafana面板

云容器引擎 CCE
云容器引擎 CCE-Service配置服务器名称指示（SNI）:通过控制台创建

通过控制台创建登录CCE控制台，单击集群名称进入集群。在左侧导航栏中选择“服务”，在右上角单击“创建服务”。设置Service参数。本示例中仅列举使用SNI的必选参数，其余参数可根据需求参考创建LoadBalancer类型Service进行设置。 Service名称：自定义服务名称，可与工作负载名称保持一致。访问类型：选择“负载均衡”。选择器：添加标签，Service根据标签选择Pod，填写后单击“确认添加”。也可以引用已有工作负载的标签，单击“引用负载标签”，在弹出的窗口中选择负载，然后单击“确定”。负载均衡器：选择弹性负载均衡的类型、创建方式。类型：“独享型”或“共享型”，其中独享型ELB需选择“应用型（HTTP/HTTPS）”或“网络型（TCP/UDP/TLS）&应用型（HTTP/HTTPS）”，否则监听器端口将无法启用HTTP/HTTPS。创建方式：本文中以选择已有ELB为例进行说明，关于自动创建的配置参数请参见表1。端口配置：协议：请选择TCP协议，选择UDP协议将无法使用HTTP/HTTPS。服务端口：Service使用的端口，端口范围为1-65535。容器端口：工作负载程序实际监听的端口，需用户确定。例如nginx默认使用80端口。监听器前端协议：本例中Service使用SNI需选择开启HTTPS。当选择独享型负载均衡器类型时，需包含“应用型（HTTP/HTTPS）”方可支持配置HTTP/HTTPS。监听器配置： SSL解析方式：当监听器端口启用HTTPS时可选择SSL解析方式。单向认证：仅进行服务器端认证。如需认证客户端身份，请选择双向认证。双向认证：双向认证需要负载均衡实例与访问用户互相提供身份认证，从而允许通过认证的用户访问负载均衡实例，后端服务器无需额外配置双向认证。 CA证书：SSL解析方式选择“双向认证”时需要添加CA证书，用于认证客户端身份。CA证书又称客户端CA公钥证书，用于验证客户端证书的签发者；在开启HTTPS双向认证功能时，只有当客户端能够出具指定CA签发的证书时，HTTPS连接才能成功。服务器证书：选择一个服务器证书作为默认证书。如果当前无可选证书，需前往弹性负载均衡控制台进行创建，详情请参见创建证书。 SNI：选择添加SNI证书，证书中必须包含域名。如果当前无可选证书，需前往弹性负载均衡控制台进行创建，详情请参见创建证书。如果无法根据客户端请求的域名查找到对应的SNI证书，则默认返回服务器证书。图1 配置服务器名称指示（SNI）单击“确定”，创建Service。

云容器引擎 CCE
云容器引擎 CCE-Service配置服务器名称指示（SNI）:前提条件

前提条件已创建Kubernetes集群，且集群版本满足以下要求： v1.23集群：v1.23.13-r0及以上版本 v1.25集群：v1.25.8-r0及以上版本 v1.27集群：v1.27.5-r0及以上版本 v1.28集群：v1.28.3-r0及以上版本其他更高版本的集群您已经在弹性负载均衡服务中创建好一个或多个SNI证书，且证书中指定了域名。详情请参见创建证书。如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。

云容器引擎 CCE
云容器引擎 CCE-NUMA亲和性调度:使用Volcano设置NUMA亲和性调度

使用Volcano设置NUMA亲和性调度以下为使用Volcano设置NUMA亲和性调度的示例。示例一：在无状态工作负载中配置NUMA亲和性。 kind: Deployment apiVersion: apps/v1 metadata: name: numa-tset spec: replicas: 1 selector: matchLabels: app: numa-tset template: metadata: labels: app: numa-tset annotations: volcano.sh/numa-topology-policy: single-numa-node # set the topology policy spec: containers: - name: container-1 image: nginx:alpine resources: requests: cpu: 2 # 必须为整数，且需要与limits中一致 memory: 2048Mi limits: cpu: 2 # 必须为整数，且需要与requests中一致 memory: 2048Mi imagePullSecrets: - name: default-secret 示例二：创建一个Volcano Job，并使用NUMA亲和性。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: vj-test spec: schedulerName: volcano minAvailable: 1 tasks: - replicas: 1 name: "test" topologyPolicy: best-effort # set the topology policy for task template: spec: containers: - image: alpine command: ["/bin/sh", "-c", "sleep 1000"] imagePullPolicy: IfNotPresent name: running resources: limits: cpu: 20 memory: "100Mi" restartPolicy: OnFailure NUMA调度分析。假设NUMA节点情况如下：工作节点节点策略拓扑管理器策略 NUMA 节点 0 上的可分配 CPU NUMA 节点 1 上的可分配 CPU node-1 single-numa-node 16U 16U node-2 best-effort 16U 16U node-3 best-effort 20U 20U 则根据以上示例，示例一中，Pod的CPU申请值为2U，设置拓扑策略为“single-numa-node”，因此会被调度到相同策略的node-1。示例二中，Pod的CPU申请值为20U，设置拓扑策略为“best-effort”，它将被调度到node-3，因为node-3可以在单个NUMA节点上分配Pod的CPU请求，而node-2需要在两个NUMA节点上执行此操作。

云容器引擎 CCE Volcano调度
云容器引擎 CCE-NUMA亲和性调度:Volcano开启NUMA亲和性调度

Volcano开启NUMA亲和性调度开启静态（static）CPU管理策略，具体请参考开启CPU管理策略。配置CPU拓扑策略。登录CCE控制台，单击集群名称进入集群，在左侧选择“节点管理”，在右侧选择“节点池”页签，单击节点池名称后的“ 配置管理”。将kubelet的拓扑管理策略（topology-manager-policy）的值修改为需要的CPU拓扑策略即可。有效拓扑策略为“none”、“best-effort”、“restricted”、“single-numa-node”，具体策略对应的调度行为请参见Pod调度预测。开启numa-aware插件功能和resource_exporter功能。 Volcano 1.7.1及以上版本登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”，在右侧找到Volcano，单击“编辑”，并在“参数配置”中设置Volcano调度器配置参数。 { "ca_cert": "", "default_scheduler_conf": { "actions": "allocate, backfill, preempt", "tiers": [ { "plugins": [ { "name": "priority" }, { "name": "gang" }, { "name": "conformance" } ] }, { "plugins": [ { "name": "drf" }, { "name": "predicates" }, { "name": "nodeorder" } ] }, { "plugins": [ { "name": "cce-gpu-topology-predicate" }, { "name": "cce-gpu-topology-priority" }, { "name": "cce-gpu" }, { // add this also enable resource_exporter "name": "numa-aware", // the weight of the NUMA Aware Plugin "arguments": { "weight": "10" } } ] }, { "plugins": [ { "name": "nodelocalvolume" }, { "name": "nodeemptydirvolume" }, { "name": "nodeCSIscheduling" }, { "name": "networkresource" } ] } ] }, "server_cert": "", "server_key": "" } Volcano 1.7.1以下版本 Volcano插件开启resource_exporter_enable参数，用于收集节点numa拓扑信息。 { "plugins": { "eas_service": { "availability_zone_id": "", "driver_id": "", "enable": "false", "endpoint": "", "flavor_id": "", "network_type": "", "network_virtual_subnet_id": "", "pool_id": "", "project_id": "", "secret_name": "eas-service-secret" } }, "resource_exporter_enable": "true" } 开启后可以查看当前节点的numa拓扑信息。 kubectl get numatopo NAME AGE node-1 4h8m node-2 4h8m node-3 4h8m 启用Volcano numa-aware算法插件。 kubectl edit cm -n kube-system volcano-scheduler-configmap kind: ConfigMap apiVersion: v1 metadata: name: volcano-scheduler-configmap namespace: kube-system data: default-scheduler.conf: |- actions: "allocate, backfill, preempt" tiers: - plugins: - name: priority - name: gang - name: conformance - plugins: - name: overcommit - name: drf - name: predicates - name: nodeorder - plugins: - name: cce-gpu-topology-predicate - name: cce-gpu-topology-priority - name: cce-gpu - plugins: - name: nodelocalvolume - name: nodeemptydirvolume - name: nodeCSIscheduling - name: networkresource arguments: NetworkType: vpc-router - name: numa-aware # add it to enable numa-aware plugin arguments: weight: 10 # the weight of the NUMA Aware Plugin

云容器引擎 CCE Volcano调度
云容器引擎 CCE-NUMA亲和性调度:确认NUMA使用情况

确认NUMA使用情况您可以通过lscpu命令查看当前节点的CPU概况： # 查看当前节点的CPU概况 lscpu ... CPU(s): 32 NUMA node(s): 2 NUMA node0 CPU(s): 0-15 NUMA node1 CPU(s): 16-31 然后查看NUMA节点使用情况。 # 查看当前节点的CPU分配 cat /var/lib/kubelet/cpu_manager_state {"policyName":"static","defaultCpuSet":"0,10-15,25-31","entries":{"777870b5-c64f-42f5-9296-688b9dc212ba":{"container-1":"16-24"},"fb15e10a-b6a5-4aaa-8fcd-76c1aa64e6fd":{"container-1":"1-9"}},"checksum":318470969} 以上示例中表示，节点上运行了两个容器，一个占用了NUMA node0的1-9核，另一个占用了NUMA node1的16-24核。

云容器引擎 CCE Volcano调度
云容器引擎 CCE-NUMA亲和性调度:Pod调度预测

Pod调度预测当Pod设置了拓扑策略时，Volcano会根据Pod设置的拓扑策略预测匹配的节点列表。调度过程如下：根据Pod设置的Volcano拓扑策略，筛选具有相同策略的节点。Volcano提供的拓扑策略与拓扑管理器相同。在设置了相同策略的节点中，筛选CPU拓扑满足该策略要求的节点进行调度。 Volcano拓扑策略节点调度行为 1.筛选具有相同策略的节点 2.节点的CPU拓扑满足该策略的要求 none 无筛选行为： none：可调度 best-effort：可调度 restricted：可调度 single-numa-node：可调度 - best-effort 筛选拓扑策略同样为“best-effort”的节点： none：不可调度 best-effort：可调度 restricted：不可调度 single-numa-node：不可调度尽可能满足策略要求进行调度：优先调度至单NUMA节点，如果单NUMA节点无法满足CPU申请值，允许调度至多个NUMA节点。 restricted 筛选拓扑策略同样为“restricted”的节点： none：不可调度 best-effort：不可调度 restricted：可调度 single-numa-node：不可调度严格限制的调度策略：单NUMA节点的CPU容量上限大于等于CPU的申请值时，仅允许调度至单NUMA节点。此时如果单NUMA节点剩余的CPU可使用量不足，则Pod无法调度。单NUMA节点的CPU容量上限小于CPU的申请值时，可允许调度至多个NUMA节点。 single-numa-node 筛选拓扑策略同样为“single-numa-node”的节点： none：不可调度 best-effort：不可调度 restricted：不可调度 single-numa-node：可调度仅允许调度至单NUMA节点。假设单个节点CPU总量为32U，由2个NUMA节点提供资源，分配如下：工作节点节点拓扑策略 NUMA节点1上的CPU总量 NUMA节点2上的CPU总量节点-1 best-effort 16 16 节点-2 restricted 16 16 节点-3 restricted 16 16 节点-4 single-numa-node 16 16 Pod设置拓扑策略后，调度情况如图1所示。当Pod的CPU申请值为9U时，设置拓扑策略为“best-effort”，Volcano会匹配拓扑策略同样为“best-effort”的节点-1，且该策略允许调度至多个NUMA节点，因此9U的申请值会被分配到2个NUMA节点，该Pod可成功调度至节点-1。当Pod的CPU申请值为9U时，设置拓扑策略为“restricted”，Volcano会匹配拓扑策略同样为“restricted”的节点-2/节点-3，且单NUMA节点CPU总量满足9U的申请值，但单NUMA节点剩余可用的CPU量无法满足，因此该Pod无法调度。当Pod的CPU申请值为17U时，设置拓扑策略为“restricted”，Volcano会匹配拓扑策略同样为“restricted”的节点-2/节点-3，且单NUMA节点CPU总量无法满足17U的申请值，可允许分配到2个NUMA节点，该Pod可成功调度至节点-3。当Pod的CPU申请值为17U时，设置拓扑策略为“single-numa-node”，Volcano会匹配拓扑策略同样为“single-numa-node”的节点，但由于单NUMA节点CPU总量均无法满足17U的申请值，因此该Pod无法调度。图1 NUMA调度策略对比

云容器引擎 CCE Volcano调度
云容器引擎 CCE-NUMA亲和性调度:背景信息

背景信息当节点运行许多CPU绑定的Pod时，工作负载可以迁移到不同的CPU核心，这取决于Pod是否被限制以及调度时哪些CPU核心可用。许多工作负载对此迁移不敏感，因此在没有任何干预的情况下工作正常。但是，在CPU缓存亲和性和调度延迟显著影响工作负载性能的工作负载中，如果CPU是从不同的NUMA节点分配的，会导致额外的延迟。因此kubelet允许使用拓扑管理器（Topology Manager）替代CPU管理策略来确定节点的分配。 CPU Manager和拓扑管理器都是kubelet组件，但有以下限制： K8s默认调度器不感知NUMA拓扑。因此，可能会调度到不满足NUMA拓扑要求的节点上，然后工作负载实例启动失败。这对于Tensorflow作业来说是不可接受的。如果节点上有任何工作进程或ps失败，则作业将失败。管理器是节点级的，导致无法匹配整个集群中NUMA拓扑的最佳节点。 Volcano的目标是解决调度程序NUMA拓扑感知的限制，以便实现以下目标：避免将Pod调度到NUMA拓扑不匹配的节点。将Pod调度到NUMA拓扑的最佳节点。更多资料请查看社区NUMA亲和性插件指导链接：https://github.com/volcano-sh/volcano/blob/master/docs/design/numa-aware.md

云容器引擎 CCE Volcano调度
云容器引擎 CCE-NUMA亲和性调度:调度优先级

调度优先级不管是什么拓扑策略，都是希望把Pod调度到当时最优的节点上，这里通过给每一个节点进行打分的机制来排序筛选最优节点。原则：尽可能把Pod调度到需要跨NUMA节点最少的工作节点上。打分公式如下： score = weight * (100 - 100 * numaNodeNum / maxNumaNodeNum) 参数说明： weight：NUMA Aware Plugin的权重。 numaNodeNum：表示工作节点上运行该Pod需要NUMA节点的个数。 maxNumaNodeNum：表示所有工作节点中该Pod的最大NUMA节点个数。例如，假设有三个节点满足Pod的CPU拓扑策略，且NUMA Aware Plugin的权重设为10： Node A：由1个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=1 Node B：由2个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=2 Node C：由4个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=4 则根据以上公式，maxNumaNodeNum=4 score(Node A) = 10 * (100 - 100 * 1 / 4) = 750 score(Node B) = 10 * (100 - 100 * 2 / 4) = 500 score(Node C) = 10 * (100 - 100 * 4 / 4) = 0 因此最优节点为Node A。

云容器引擎 CCE Volcano调度
云容器引擎 CCE-可观测性体系概述:监控与日志

监控与日志 AOM：应用运维管理（Application Operations Management，简称AOM）是云上应用的一站式立体化运维管理平台，实时监控您的应用及相关云资源，分析应用健康状态，提供灵活丰富的数据可视化功能，帮助您及时发现故障，全面掌握应用、资源及业务的实时运行状况。 LTS：云日志服务（Log Tank Service，简称LTS），用于收集来自主机和云服务的日志数据，通过海量日志数据的分析与处理，可以将云服务和应用程序的可用性和性能最大化，为您提供实时、高效、安全的日志处理能力，帮助您快速高效地进行实时决策分析、设备运维管理、用户业务趋势分析等。

云容器引擎 CCE 可观测性
云容器引擎 CCE-可观测性体系概述:云原生观测

云原生观测 CCE云原生观测相关的功能包括健康中心、监控中心、日志中心、告警中心等。以下分别介绍CCE云原生观测的主要功能。健康中心集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查，能够及时发现集群故障与潜在风险并给出修复建议。监控中心监控中心提供不同维度的数据洞察、仪表盘等功能。监控中心提供容器视角的可视化视图，支持集群、节点、工作负载和Pod等多种维度的监控视图，支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘，如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。日志中心 CCE日志中心集成了云日志服务LTS。启用日志采集与管理，您可以快速采集CCE控制面组件日志（kube-apiserver、kube-controller-manager、kube-scheduler）、kubernetes审计日志、Kubernetes事件和容器日志（容器的标准输出、容器内的文本文件、节点日志）。告警中心告警中心集成应用运维管理服务AOM2.0的告警功能，提供容器告警一键开启能力，覆盖集群和容器常见故障场景。

云容器引擎 CCE 可观测性
云容器引擎 CCE-使用模板时的API资源限制

使用模板时的API资源限制资源限制项说明推荐替代方案 namespaces - 支持为安全起见，Autopilot 不允许在系统管理的命名空间（如 kube-system）中部署工作负载，不可进行任何资源的创建、修改、删除、exec等。 nodes - 支持只支持查询，不支持增删改功能 persistentvolumeclaims - 支持 - persistentvolumes - 支持 - pods HostPath 限制挂载本地宿主机文件到容器中使用emptyDir或云存储 HostNetwork 限制将宿主机端口映射到容器上使用type=LoadBalancer的负载均衡 HostPID 限制容器可见宿主机PID空间用户不感知节点，无需使用 HostIPC 限制容器进程和宿主机进程间通信用户不感知节点，无需使用 NodeName 限制Pod调度到特定节点用户不感知节点，无需使用特权容器不支持 - Linux capabilities 支持"SETPCAP", "MKNOD", "AUDIT_WRITE", "CHOWN", "DAC_OVERRIDE", "FOWNER", "FSETID", "KILL", "SETGID", "SETUID", "NET_BIND_SERVICE", "SYS_CHROOT", "SETFCAP", "SYS_PTRACE" 可以通过SecurityContext设置开启NET_RAW 、SYS_PTRACE 、NET_ADMIN 使用允许值调度的节点亲和与打散规则限制将Pod调度到指定节点或者具有某些标签的节点上，或者将一批Pod打散到具有某些标签的节点上。 Autopilot集群中应用指定节点亲和性或nodeSelector字段不生效。无需指定节点调度，但可以指定Pod到某一个可用区可以将一批Pod打散到多个可用区 Pod间亲和与反亲和配置不生效无需配置 allowPrivilegeEscalation是否允许特权升级不支持使用默认配置 RuntimeClassName 无需配置，上层应用（Pod除外)指定RuntimeClassName时后端将自动修改为系统默认支持的runc 无需配置时区同步(会挂载主机/etc/localtime) 不支持使用默认配置 serviceaccounts - 不支持修改系统配置、不允许绑定系统角色使用默认配置 services - 限制nodeport，ELB只支持独享型使用type=LoadBalancer的负载均衡 daemonsets apps 限制使用Daemonset类workload 通过Sidecar形式在Pod中部署多个镜像 deployments apps 支持，其中限制使用的字段与Pod一致使用允许值 replicasets apps 支持，其中限制使用的字段与Pod一致使用允许值 statefulsets apps 支持，其中限制使用的字段与Pod一致使用允许值 cronjobs batch 支持，其中限制使用的字段与Pod一致使用允许值 jobs batch 支持，其中限制使用的字段与Pod一致使用允许值 clusterrolebindings rbac.authorization.k8s.io 支持，限制绑定系统组与系统用户，cce-service组使用允许值 rolebindings rbac.authorization.k8s.io 支持，限制绑定系统组与系统用户，cce-service组使用允许值 storageclasses storage.k8s.io 不支持创建obs、evs类型的storageclass；其他功能支持使用允许值父主题：模板（Helm Chart）

云容器引擎 CCE
云容器引擎 CCE-休眠/唤醒按需计费的集群:集群休眠

集群休眠登录CCE控制台，在左侧导航栏中选择“集群管理”。找到需要休眠的集群，查看集群的更多操作，并单击“休眠集群”。图1 休眠集群在弹出的集群休眠提示框中，查看风险提示，单击“是”，等待集群完成休眠。集群休眠后，将暂停收取控制节点资源费用。集群所属的工作节点（ECS）、绑定的弹性IP、带宽等资源仍将按各自的计费方式进行收费。如需关机节点，请在集群休眠提示框中勾选“关机集群下所有节点”或参见节点关机。大部分节点关机后不再收费，特殊ECS实例（包含本地硬盘，如磁盘增强型，超高I/O型等）关机后仍然正常收费，具体请参见ECS计费模式。图2 集群休眠提示

云容器引擎 CCE

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线