华为云用户手册

  • 无状态负载(Deployment) Deployment是Pod Controller的一种。 一个Deployment可以包含一个或多个Pod,每个Pod的角色相同,所以系统会自动为Deployment的多个Pod分发请求。Deployment中的所有Pod共享存储卷。 使用Deployment时,您只需要在Deployment中描述您想要的目标状态是什么,Deployment就会帮您将Pod的状态改变到目标状态。 详细信息请参见Deployment。
  • 标签 Label(标签)是一组附加在对象上的键值对,用来传递用户定义的属性。 标签常用来从一组对象中选取符合条件的对象,这也是Kubernates中目前为止最重要的节点分组方法。 比如,你可能创建了一个“tier”和“app”标签,通过Label(tier=frontend,app=myapp)来标记前端Pod容器,使用Label(tier=backend,app=myapp)标记后台Pod。然后可以使用Selectors选择带有特定Label的Pod,并且将Service或者Deployment应用到上面。 详细信息请参见Label。 图2 使用Label组织的Pod
  • Pod Pod是Kubernetes创建或部署的最小单位。一个Pod封装一个或多个容器、存储资源、一个独立的网络IP以及管理控制容器运行方式的策略选项。 图1 Pod Pod使用主要分为两种方式: Pod中运行一个容器。这是Kubernetes最常见的用法,你可以将Pod视为单个封装的容器,但是Kubernetes是直接管理Pod而不是容器。 Pod中运行多个需要耦合在一起工作、需要共享资源的容器。 实际使用中很少直接创建Pod,而是使用Kubernetes中称为Controller的抽象层来管理Pod实例,例如Deployment。Controller可以创建和管理多个Pod,提供副本管理、滚动升级和自愈能力。通常,Controller会使用Pod Template来创建相应的Pod。 详细信息请参见Pod。
  • 服务(Service) Pod是有生命周期的,它们可以被创建,也可以被销毁,然而一旦被销毁生命就永远结束。通过Pod Controller能够动态地创建和销毁Pod(例如,需要进行扩缩容,或者执行滚动升级)。每个Pod都会获取它自己的IP地址,但这些IP地址不总是稳定可依赖的。 这会导致一个问题:如果一组Pod(称为backend)为其它Pod(称为frontend)提供服务,那么那些frontend该如何发现,并连接到这组Pod中的哪些backend呢? Service定义了这样一种抽象:一个Pod的逻辑分组,一种可以访问它们的策略(通常称为微服务)。 这一组Pod能够被Service访问到,通常是通过Label Selector实现的。 举个例子,考虑一个图片处理backend,它运行了3个Pod副本。这些副本是可互换的(frontend不需要关心它们调用了哪个backend副本)。 然而组成这一组backend的Pod实际上可能会发生变化,frontend不应该也没必要知道,而且也不需要跟踪这一组backend的状态。Service定义的抽象就是用来解耦这种关联。 详细信息请参见Service。
  • Pod规格 云容器实例当前支持使用GPU,您可以根据需要选择,实例收费详情请参见产品价格详情。 当不使用GPU时,Pod规格需满足如下要求: Pod的CPU取值范围为0.25核-32核,或者自定义选择48核、64核,且单个容器的CPU必须为0.25核的整数倍 Pod的内存取值范围为1GB-512GB,且内存必须为1GB的整数倍 Pod的CPU/内存配比值必须在1:2到1:8之间 一个Pod内最多支持5个容器,单个容器最小配置是0.25核、0.2GB,最大同容器实例的最大配置 Pod中所有容器和InitContainer(启动容器)规格中的request和limit相等 详情请参见Pod规格计算方式。 GPU加速型Pod提供NVIDIA Tesla V100 32G显卡、NVIDIA Tesla V100 16G显卡和NVIDIA Tesla T4显卡,具体的规格有如下所示。 NVIDIA Tesla V100 32G显卡: NVIDIA Tesla V100 32G x 1,CPU 4核,内存32GB NVIDIA Tesla V100 32G x 2,CPU 8核,内存64GB NVIDIA Tesla V100 32G x 4,CPU 16核,内存128GB NVIDIA Tesla V100 32G x 8,CPU 32核,内存256GB NVIDIA Tesla V100 16G显卡: NVIDIA Tesla V100 16G x 1,CPU 4核,内存32GB NVIDIA Tesla V100 16G x 2,CPU 8核,内存64GB NVIDIA Tesla V100 16G x 4,CPU 16核,内存128GB NVIDIA Tesla V100 16G x 8,CPU 32核,内存256GB NVIDIA Tesla T4显卡: NVIDIA Tesla T4 x 1,CPU 8核,内存32GB NVIDIA Tesla T4 x 2,CPU 16核,内存64GB NVIDIA Tesla T4 x 4,CPU 32核,内存128GB NVIDIA Tesla T4 x 8,CPU 64核,内存256GB “华北-北京四”区域,仅支持NVIDIA TeslaV100 32G和NVIDIA Tesla T4显卡。“华东-上海一”仅支持NVIDIA TeslaV100 16G显卡。 云容器实例支持使用NVIDIA GPU的驱动版本为460.106和418.126,您应用程序中使用的CUDA需满足如表2所示的配套关系。CUDA与驱动的配套关系来源于NVIDIA官网,详细信息请参见CUDA Compatibility。 表2 NVIDIA GPU驱动与CUDA配套关系 NVIDIA GPU驱动版本 CUDA Toolkit版本 460.106 CUDA 11.2.2 Update 2 及以下 418.126 CUDA 10.1 (10.1.105)及以下
  • 下行短信ID和上行短信ID是否一致? 不一致。下行短信ID和上行短信ID都是由短信平台自动生成的,但生成阶段不同。 下行短信ID:当客户通过API/群发助手发送短信时,短信平台受理发送请求,并针对请求中的(号码剔重后的)每个接收号码自动生成一个smsMsgId。 上行短信ID:当手机用户收到下行短信并回复内容时,短信平台会针对收到的每条回复内容自动生成一个smsMsgId。如果客户添加应用时配置了上行短信接收地址,短信平台会将上行短信内容推送给客户。 父主题: 其他问题
  • 如何使用短信通用模板(通用签名)? 通用模板,即不属于单个签名,可供同一应用下的同类型签名共同使用的模板(如验证码类通用模板对应所有验证码类签名)。国内短信中的验证码类、通知类短信和推广类短信均支持通用模板,推广短信(视频)不支持使用通用模板。 申请短信模板时,“模板类型”选择“验证码类”、“通知类”或“推广类”,“所属签名”选择“通用签名”。审核通过后即为通用模板,实际通用签名并不存在。 申请模板前,请先申请与通用模板同类型的短信签名并审核通过,否则在选择“模板类型”和“所属应用”之后,“所属签名”下拉选项为空,表示该应用下没有可用的同类型的签名。 通用模板无法在群发助手中使用,只能在调用短信业务API发送短信时使用,具体请参考发送短信API。 参考开发指南,调测通用模板。 图1 通用模板关系图 父主题: 模板问题
  • 消息&短信服务是否支持海外站点接入? 有限制的支持。消息&短信服务对海外站点接入有限制,但可以使用中国大陆IP接入并给海外发送短信。如果使用中国大陆IP也无法接入短信平台,请在创建短信应用时自行配置IP白名单。 当您的业务满足如下两个要求时,可以申请将海外站点IP地址加入短信平台IP白名单: 客户的服务部署在华为云海外节点上,有对口的客户经理清楚的了解客户的相关业务。 国际IP入口必须只是行业短信(通知短信和验证码短信),且短信签名和内容需要报备。 父主题: 认证问题
  • 发送的短信状态显示为拒收(REJECTD)是什么原因? 可能的原因与处理建议如下: 因为短信发送的对象之前已针对该短信的通道号(签名)回复过退订消息,不再接收该通道号发送的短信。请更换手机号码进行测试。 号码的短信业务未开通。请从短信接收号码列表中剔除该号码。 被叫号码归属地省份屏蔽,比如含有关键字。建议联系华为云客服核查原因。 当时手机数据异常,无法下达,比如空号,停机,关机等。请核实手机终端是否处于正常状态。 父主题: 故障排除
  • 状态码MBBLACK,应该怎么处理? 状态码来源 状态码 状态码说明 可能原因 处理建议 供应商平台 MBBLACK 号码黑名单。 手机号码位于黑名单中,可能是该号码回复过退订信息或者该号码用户向工信部投诉过。 如确认该手机需要接收短信,请联系华为云客服解除黑名单。 供应商 MBBLACK 短信发送失败。 黑名单。 建议联系华为云客服解除黑名单。 移动 MBBLACK 短信发送失败。 黑名单。 建议联系运营商解除黑名单。 父主题: 故障排除
  • 为什么个别号码收不到短信? 个别号码收不到短信,请通过短信控制台查看短信发送状态。 如果状态显示错误码,请参考状态回执错误码处理。例如当状态码显示MBBLACK时,说明手机号码位于黑名单中,可能是该号码回复过退订信息或者该号码用户向工信部投诉过,如果该号码需要接收短信,可以联系华为云客服处理。 如果短信发送状态显示成功,手机未收到短信,建议检查接收方手机号码是否欠费停机、手机是否关机,无信号,或者手机本地是否有拦截。如果手机状态正常,仍收不到短信,建议报工单联系华为云客服处理。 父主题: 故障排除
  • 签名申请材料 注:营业执照和授权委托书支持jpg、png、gif、jpeg格式的图片,每张图片不大于2MB。图片命名请勿出现空格,否则导致文件上传失败。 签名来源 申请要求 企事业单位的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 工信部备案网站的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 网站域名:输入工信部备案网站域名,如msgsms.console.huawei.com 查询入口:http://beian.miit.gov.cn/ APP应用的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 APP应用下载地址:输入带有开发者信息的APP下载链接。 公众号或小程序的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 公众号或者小程序的全称:需填写公众号或小程序的全称 要求公众号或小程序已上线且在微信上能搜索到。 如需查看公众号或小程序签名归属与账号主体是否一致,请打开微信 - 搜索 - 公众号/小程序 - 点击右上角更多资料查看相关信息。 电商平台店铺名的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 电商平台店铺地址:输入电商平台店铺的链接地址 如需查看电商平台店铺签名归属与账号主体是否一致,请打开电商平台 - 搜索店铺 - 查看店铺详情 - 营业执照查看信息真实性。 商标名的全称或简称 需上传签名归属实体的三证合一、五证合一、企业营业执照、事业单位法人证书、社会团体法人登记证书、组织机构代码证书、行政执法主体资格证或统一社会信用代码证书。 注:根据实际情况,选择其中一种证书文件上传即可。 若涉及第三方权益,还需上传授权委托书。 如需查看签名归属商标申请人与账号主体是否一致,请前往中国商标网查看相关信息真实性。
  • 模板类型特定规范 除以上规范外,短信的每种模板类型还有以下特定规范: 类别 变量规范 内容规范 模板示例 验证码短信 仅支持一个变量,用于填写数字验证码。 验证码变量的“最大长度”要求为8位及以下。 国内短信必须含有验证码,注册码,校验码,动态码这4个词其中之一。 请参考验证码短信模板示例 通知短信 链接和联系方式不支持使用变量发送,请填写在模板的固定文本中。 不支持带营销推广的内容。 链接只能为固定网址,不能是跳转链接或短网址。 请参考通知短信模板示例 推广短信 不支持变量,模板只能为纯固定文本。 推广短信除公共规范外,另禁止发送涉及以下信息的短信:培训、招商加盟类、团购会、装修(含建材,家私)、烟、酒、茶、捐款献血、迷信色彩、人工或软件刷单、做任务、虚拟货币、人民币收藏、钱币买卖、沙发翻新、工商代办、代开发票、买卖黑车、非法钓鱼、会展、网站、优惠券类推广、卡类、保险、税票、APP推广、办证、回收、医疗保健、POS机相关、信用卡、交友、猎头、直播及其他违反法律法规的内容。 只支持发送给有订购关系的会员用户,模板必须体现是发送给会员。 必须添加退订方式,支持“TD、T、N”进行短信退订回复。 联系方式仅支持固话或400电话,不支持手机号。 不支持携带变量链接,请将链接作为固定文本;链接只能为固定网址,不能是跳转链接或短网址。 - 模板规范可能随运营商规则变化实时调整,最终以模板审核结果为准。 如遇到违反规范并造成恶劣影响的,将严肃处理并进行封号!请严格遵守规范要求,加强自身业务安全,健康发送短信。
  • 变量规范 每个模板中最多包含20个变量,不支持连续变量。(变量间包含文字则为不连续变量) 注:如果需要扩展变量长度,请在申请短信模板时,详细备注说明业务使用场景。 模板内容中的变量格式规范如下: 两种变量格式等效,系统按${}解析识别变量,大括号中的序号标识/类型标识只是方便查阅,并无实际作用。需要为各变量设置变量属性,才能让相应变量规范生效。 变量格式 填写示例 说明 按序号标识 ${1}、${2}、...、${20} 中间数字应代表变量在模板内容中的位置顺序。即${1}表示模板内容中的第一个变量,${2}表示模板内容中的第二个变量,以此类推。 说明: 特殊内容(如网址、手机号等)不允许设置局部变量,如www.${1}.cn、186${2}1234等。 按类型标识 ${PHONE}、${CHARDIGIT}、${DATETIME}、${MONEY}、${TEXT} 中间字符表示变量类型,各变量有默认长度限制,不支持自定义设置。 当模板内容中设置了变量时,必须指定变量属性。变量属性的设置规范如下,小数点、字母、汉字、空格以及其他符号按1个变量长度计算。 变量属性 变量类型 规范 电话号码 PHONE 长度限制:1-15个字符。 可以传入手机号、座机号、95或400、800电话等。 其他号码(如验证码、订单号、密码等) CHARDIGIT 长度限制:1-20个字符。 主要用途为验证码、订单号,密码、随机秘钥等。 不允许出现手机号、QQ号、微信号、URL等联系方式。 仅支持大小写字母和数字组合。 时间 DATETIME 长度限制:1-20个字符。 需要符合时间的表达方式,格式示例如下: 日期:yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy年mm月dd日。 时间:HH:mm:ss、HH:mm、HH点mm分、HH点mm。 如果需要同时指定日期和时间,请在模板中填充两个变量,一个变量传入日期,另一个变量传入时间。 短信内容示例: 温馨提醒:2020-01-10 19:00-21:00的会议即将开始,请您准时参加。 模板示例: 温馨提醒:${1} ${2}-${3}的会议即将开始,请您准时参加。 金额 MONEY 长度限制:1-20个字符。 仅支持传入能够正常表达金额的数字、小数点或中文,例如壹、贰、叁、肆等。 支持传入IP地址,例如:10.1.1.10。 说明: ¥$等货币符号需要放在模板中,不支持变量传入。 其他(如名称、账号、地址等) TEXT 长度限制:1-20个字符。 可以设置为公司/产品/地址/姓名/内容/账号/会员名等。 不允许出现QQ号/微信号(公众号)/手机号/网址/座机号等联系方式。如果确有需要,请将联系方式放入模板中。 不允许在传入值中携带“.”、“。”、“{”或“}”。否则,可能导致模板变量解析异常。 不允许在传入值中携带“.”,即不支持传入IP地址,如变量取值为IP地址,请申请模板时选择变量属性为“金额”。
  • 选择表模型 在设计数据仓库模型的时候,最常见的有两种:星型模型与雪花模型。选择哪一种模型需要根据业务需求以及性能的多重考量来定。 星型模型由包含数据库核心数据的中央事实数据表和为事实数据表提供描述性属性信息的多个维度表组成。维度表通过主键关联事实表中的外键。如图1。 所有的事实都必须保持同一个粒度。 不同的维度之间没有任何关联。 图1 星型模型 雪花模型是在基于星型模型之上拓展来的,每一个维度可以再扩散出更多的维度,根据维度的层级拆分成颗粒度不同的多张表。如图2。 优点是减少维度表的数据量,各个维度表之间按需关联。 缺点是需要额外维护维度表的数量。 图2 雪花模型 本实践基于TPC-DS的SS(Store Sales)模型做验证。该模型为雪花模型,图3显示了该数据模型的结构。 图3 TPC-DS Store Sales ER-Diagram 有关该模型中事实表Store_Sales及各维度表的信息,请查阅TPC-DS官方文档:http://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp。 父主题: 调优表实践
  • 调优表概述 在本实践中,您将学习如何优化表的设计。您首先不指定存储方式,分布键、分布方式和压缩方式创建表,然后为这些表加载测试数据并测试系统性能。接下来,您将应用优秀实践以使用新的存储方式、分布键、分布方式和压缩方式重新创建这些表,并再次为这些表加载测试数据和测试系统性能,以便比较不同的设计对表的加载性能、存储空间和查询性能的影响。 估计时间:60 分钟。 由于“实时数仓”类型的集群不支持外表功能,如需体验本次实践,请购买“标准数仓”集群。即在购买页面,“产品类型”选择“标准数仓”。 父主题: 调优表实践
  • 迁移流程 本教程演示将Oracle业务相关的表数据迁移到GaussDB(DWS)的数据库的基本过程,迁移流程如图2和表1所示。 图1 迁移场景图 本实践以迁移Oracle中所属用户名db_user01下的表APEX2_DYNAMIC_ADD_REMAIN_TEST数据为例。 网络互通说明:本实践的Oracle数据库在云下,通过云数据迁移服务CDM连接Oracle和DWS。其中CDM通过公网IP与Oracle连通;CDM与DWS默认在同一个区域、虚拟私有云下,网络互通。实际迁移过程请确保网络互通,本章节不详细介绍网络如何打通。 本实践仅作为参考演示,实际迁移的复杂度可能受客户现网的网络环境、业务复杂度、节点规模、数据量等因素影响,项目实际迁移时建议在技术支持人员的指导下完成。 图2 Oracle迁移到DWS基本流程 表1 Oracle迁移到DWS基本流程 流程 描述 准备工具 迁移前需准备的软件工具。 表定义迁移 使用PL/SQL Developer工具进行表定义迁移。 表全量数据迁移 使用华为云迁移服务CDM完成进行数据迁移。 业务SQL迁移 使用DSC语法迁移工具进行语法改写,使Oracle的业务SQL转换成适配DWS的SQL。 父主题: Oracle迁移到GaussDB(DWS)实践
  • Tensorflow frozen graph 转 Ascend 转换Tensorflow框架训练并以“frozen_graph”格式保存的模型,转换后模型可在Ascend上运行。 表1 Tensorflow frozen graph 转 Ascend的高级选项 参数名称 参数解释 “输入张量形状” 模型输入数据的shape,输入数据格式为NHWC,如“input_name:1,224,224,3”,必填项。“input_name”必须是转换前的网络模型中的节点名称。当模型存在动态shape输入时必须提供。例如“input_name1:?,h,w,c”,该参数必填,其中“?”为batch数,表示1次处理的图片数量,需要根据实际情况填写,用于将动态shape的原始模型转换为固定shape的离线模型。目前不支持批量特性,转换输入张量形状batch只能为1。
  • Ascend芯片 用于Ascend芯片的模型,其转换要求如下所示: 针对基于Caffe框架的模型,执行模型转换时,其输入目录需符合如下规范。 ||---xxxx.caffemodel 模型参数文件,输入目录下有且只能有一个,必填。|---xxxx.prototxt 模型网络文件,输入目录下有且只能有一个,必填。|---insert_op_conf.cfg 插入算子配置文件,输入目录下有且只有一个,可选。|---plugin 自定义算子目录,输入目录下有且只能有一个plugin文件夹,可选。仅支持基于TE(Tensor Engine)开发的自定义算子。 针对基于TensorFlow框架的模型(“frozen_graph”或“saved_model”格式),执行模型转换时,其输入目录需符合如下规范。 “frozen_graph”格式 ||---xxxx.pb 模型网络文件,输入目录下有且只能有一个,必填。支持以frozen_graph或saved_model格式保存的模型。|---insert_op_conf.cfg 插入算子配置文件,输入目录下有且只有一个,可选。|---plugin 自定义算子目录,输入目录下有且只能有一个plugin文件夹,可选。仅支持基于TE(Tensor Engine)开发的自定义算子。 “saved_model”格式 ||---saved_model.pb 模型网络文件,输入目录下有且只能有一个,必填。支持以frozen_graph或saved_model格式保存的模型。|---variables 固定子目录名称,包含模型的权重偏差等信息,必选 |---variables.index 必选 |---variables.data-00000-of-00001 必选|---insert_op_conf.cfg 插入算子配置文件,输入目录下有且只有一个,可选。|---plugin 自定义算子目录,输入目录下有且只能有一个plugin文件夹,可选。仅支持基于TE(Tensor Engine)开发的自定义算子。
  • ARM或GPU 用于ARM或GPU的模型,当前只支持TensorFlow框架的模型,包含两种格式“frozen_graph”和“saved_model”。 “frozen_graph”格式如下所示: ||---model 模型存放目录,必须以model命名,有且只能有一个, 目录下只能放一个模型相关文件。 |----xxx.pb 模型文件。必须是tensorflow的frozen_graph格式的文件。|---calibration_data 校准数据集存放目录,必须以calibration_data命名,8bit和32bit转换都需要。输入目录下有且只能有一个。32bit转换时可以直接使用python工具生成的test.npy文件。 |---xx.npy 校准数据集。可以是多个npy格式文件,需要确保npy是在预处理后直接输入模型的数据,其输入的tensor需要与模型输入保持一致。 “saved_model”格式如下所示: ||---model 模型存放目录,必须以model命名,有且只能有一个, 目录下只能放一个模型相关文件。 |----saved_model.pb 模型文件。必须是tensorflow的saved_model格式的文件。 |----variables 变量存储文件夹。 |----variables.data-******-of-***** saved_model格式文件需要的数据。 |----variables.index saved_model格式文件需要的索引。|---calibration_data 校准数据集存放目录,必须以calibration_data命名,8bit和32bit转换都需要。输入目录下有且只能有一个。32bit转换时可以直接使用python工具生成的test.npy文件。 |---xx.npy 校准数据集。可以是多个npy格式文件,需要确保npy是在预处理后直接输入模型的数据,其输入的tensor需要与模型输入保持一致。 32bit转换时,可以直接使用python工具生成的test.npy文件,并将此文件放置在上述两种格式的calibration_data目录下。 import numpy as np a = np.arange(4) np.save("test.npy", a)
  • ARM或GPU 用于ARM或GPU的模型,其转换后输出目录说明如下所示: GPU格式如下所示: ||---model |---xxx.pb GPU转换后模型后缀为“.pb”。|---job_log.txt 转换过程的日志文件。 ARM格式如下所示: ||---model |---xxx.tflite ARM转换后模型后缀为“.tflite”。 |---config.json 8bit转换后,用户需要使用tflite时需要的参数。|---job_log.txt 转换过程的日志文件。
  • 普通日志的文件格式 普通日志的文件格式如下,其中task id为训练作业中的节点id。 统一日志格式:modelarts-job-[job id]-[task id].log样例:log/modelarts-job-95f661bd-1527-41b8-971c-eca55e513254-worker-0.log 单机训练作业只会生成一个日志文件,单机作业的task id默认为worker-0。 分布式场景下有多个节点日志文件并存,通过task id区分不同节点,例如:worker-0,worker-1等。 训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志都包含在普通日志文件modelarts-job-[job id]-[task id].log中
  • ModelArts平台日志 ModelArts平台日志可以通过关键字在训练的普通日志文件modelarts-job-[job id]-[task id].log中筛查,筛查关键字有:[ModelArts Service Log]或Platform=ModelArts-Service。 类型一:[ModelArts Service Log] xxx [ModelArts Service Log][init] download code_url: s3://dgg-test-user/ascend910-test-cases/mindspore/lenet/ 类型二:time=“xxx” level=“xxx” msg=“xxx” file=“xxx” Command=xxx Component=xxx Platform=xxx time="2021-07-26T19:24:11+08:00" level=info msg="start the periodic upload task, upload period = 5 seconds " file="upload.go:46" Command=obs/upload Component=ma-training-toolkit Platform=ModelArts-Service
  • 相关操作 关闭MindInsight方式如下: 方式1:在开发环境JupyterLab中的.ipynb文件窗口中输入命令,关闭MindInsight。端口号在启动MindInsight中设置,默认使用8080,需要替换为实际开启MindInsight时的端口。 !mindinsight stop --port 8080 方式2:单击下方按钮进入MindInsight实例管理界面,该界面记录了所有启动的MindInsight实例,单击对应实例后面的SHUT DOWN即可停止该实例。 图8 单击SHUT DOWN停止实例 方式3:单击下方红框中的按钮可以关闭所有启动的MindInsight实例。 图9 关闭所有启动的MindInsight实例 方式4(不推荐):直接在JupyterLab中上关闭MindInsight窗口,此方式仅是关闭MindInsight可视化窗口,并未关闭后台。
  • Step2 上传Summary数据 在开发环境中使用MindInsight可视化功能,需要用到Summary数据。 Summary数据可以直接传到开发环境的这个路径下/home/ma-user/work/,也可以放到OBS并行文件系统中。 Summary数据上传到Notebook路径/home/ma-user/work/下的方式,请参见上传数据至Notebook。 Summary数据如果是通过OBS并行文件系统挂载到Notebook中,请将模型训练时产生的Summary文件先上传到OBS并行文件系统,并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动MindInsight时,Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。
  • 贝叶斯优化(SMAC) 贝叶斯优化假设超参和目标函数存在一个函数关系。基于已搜索超参的评估值,通过高斯过程回归来估计其他搜索点处目标函数值的均值和方差。根据均值和方差构造采集函数(Acquisition Function),下一个搜索点为采集函数的极大值点。相比网格搜索,贝叶斯优化会利用之前的评估结果,从而降低迭代次数、缩短搜索时间;缺点是不容易找到全局最优解。 表1 贝叶斯优化的参数说明 参数 说明 取值参考 num_samples 搜索尝试的超参组数 int,一般在10-20之间,值越大,搜索时间越长,效果越好 kind 采集函数类型 string,默认为'ucb',可能取值还有'ei'、'poi',一般不建议用户修改 kappa 采集函数ucb的调节参数,可理解为上置信边界 float,一般不建议用户修改 xi 采集函数poi和ei的调节参数 float,一般不建议用户修改 父主题: 搜索算法
  • 注意事项 TensorBoard可视化训练作业,当前仅支持基于TensorFlow2.1、Pytorch1.4/1.8以上版本镜像,CPU/GPU规格的资源类型。请根据实际局点支持的镜像和资源规格选择使用。 运行中的可视化作业不单独计费,当停止Notebook实例时,计费停止。 Summary文件数据如果存放在OBS中,由OBS单独收费。任务完成后请及时停止Notebook实例,清理OBS数据,避免产生不必要的费用。
  • Step2 上传Summary数据 在开发环境中使用TensorBoard可视化功能,需要用到Summary数据。 Summary数据可以直接传到开发环境的这个路径下/home/ma-user/work/,也可以放到OBS并行文件系统中。 Summary数据上传到Notebook路径/home/ma-user/work/下的方式,请参见上传数据至Notebook。 Summary数据如果是通过OBS并行文件系统挂载到Notebook中,请将模型训练时产生的Summary文件先上传到OBS并行文件系统,并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动TensorBoard时,Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。
  • 相关操作 关闭TensorBoard方式如下: 方式1:在开发环境JupyterLab中的.ipynb文件窗口中输入命令,关闭TensorBoard。PID在启动界面有提示或者通过ps -ef | grep tensorboard查看。 !kill PID 方式2:单击下方,进入TensorBoard实例管理界面,该界面记录了所有启动的TensorBoard实例,单击对应实例后面的SHUT DOWN即可停止该实例。 图8 单击SHUT DOWN停该实例 方式3:单击下方红框中的按钮可以关闭所有启动的TensorBoard实例。 图9 关闭所有启动的TensorBoard实例 方式4(不推荐):直接在JupyterLab中上关闭TensorBoard窗口,此方式仅关闭可视化窗口,并未关闭后台。
  • 什么是训练作业卡死检测 训练作业在运行中可能会因为某些未知原因导致作业卡死,如果不能及时发现,就会导致无法及时释放资源,从而造成极大的资源浪费。为了节省训练资源成本,提高使用体验,ModelArts提供了卡死检测功能,能自动识别作业是否卡死,并在日志详情界面上展示,同时能配置通知及时提醒用户作业卡死。 由于检测规则的局限性,当前卡死检测存在一定的误检率。如果是作业代码本身逻辑(如长时间sleep)导致的卡死,请忽略。 如果对于误检有疑问或者卡死问题无法自行解决,您可以前往ModelArts开发者论坛进行提问或者搜索问题。
共100000条