华为云用户手册

  • 配置ROI ROI即Region of Interest,表示算法的检测区域。部分算法要求必须填入表示检测区域的JSON格式的字符串,例如:{"polygons":[{"data":[[84,389],[1840,349],[1824,526],[78,526]]}]},其中[84,389]这类结构表示的是横纵坐标,{"data":[...]}表示由这些坐标点连线构成的一个图形,"polygons":[...]}表示复数个{"data":[...]}图形都为多边形区域。示例的整个字符串表示由这四个坐标点构成的多边形区域。同理{"lines":[{"data":[[238,481],[1309,481]]}]}表示由两个坐标点构成的线段。 除了直接填入表示区域的字符串外还可直接通过手工绘制的方式配置ROI,平台将根据绘制的结果自动生成对应的表示区域的JSON格式字符串。 配置ROI 绘画直线段时,单击,在图中画出期望的直线段。 图1 绘画直线段 绘画多边形时,单击,在图中画出期望的检测区域,最后一条线段不需要绘画,双击鼠标表示绘画多边形结束,区域将自动闭合。 图2 绘画多边形 绘画多边形区域时,线段不能交叉。 可在图中绘画多个多边形区域。 可以在绘制区域按钮中自定义名称和颜色。 保存ROI模板 绘制好需要的ROI之后,输入ROI名称,单击保存,将所绘的ROI保存到模板中。 图3 保存ROI模板 选择ROI模板 单击选中需要的ROI模板,则可在当前任务中使用。 图4 ROI模板 除了在新建任务过程中可以增加ROI模板外,也可以单击视频源详情进行ROI模板的绘制。 图5 ROI管理 父主题: 参考信息
  • 从AI Gallery订阅的Workflow如何使用 登录AI Gallery的Workflow案例库。 从AI Gallery的Workflow资产页面,选择并订阅一个Workflow,勾选“我已阅读 《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”后,单击“继续订阅”。 订阅完成后,单击“运行”后跳转到ModelArts控制台界面,选择资产版本、Workflow名称、云服务区域以及工作空间,单击“导入”,进入该Workflow的详情页面。 图1 从AI Gallery导入工作流 单击右上角的“配置”后进入配置页面,根据您所订阅的工作流,配置Workflow需要的部分输入项和参数,参考表1,参数配置完成后,单击右上角的“保存配置”。 保存成功后,单击右上角的“启动”,启动Workflow。 Workflow进入运行页面,等待Workflow运行。 每一个节点运行状况页面的“状态”为此节点的运行状态,运行成功会自动执行下一个节点的运行,直至所有节点运行成功,代表Workflow完成运行。 图2 完成运行 父主题: 如何使用Workflow
  • 部分运行 针对大型、复杂的Workflow,为节省重复运行消耗的时间,在运行业务场景时,用户可以选择其中的部分节点作为业务场景运行,工作流在执行时将会按顺序执行部分运行节点。 创建 通过SDK创建工作流时,预先定义好部分运行场景,具体可参考部分运行。 配置 在配置工作流时,打开“部分运行”开关,选择需要执行的部分运行场景,并填写完善相关节点的参数。 启动 保存上一步的配置后,单击“启动”按钮即可启动部分运行场景。 父主题: 如何使用Workflow
  • 属性总览 您可以使用JobStep来构建作业类型节点,JobStep结构如下 表1 JobStep 属性 描述 是否必填 数据类型 name 作业节点的名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符,一个Workflow里的两个step名称不能重复 是 str algorithm 算法对象 是 BaseAlgorithm, Algorithm, AIGalleryAlgorithm spec 作业使用的资源规格相关配置 是 JobSpec inputs 作业节点的输入列表 是 JobInput或者JobInput的列表 outputs 作业节点的输出列表 是 JobOutput或者JobOutput的列表 title title信息,主要用于前端的名称展示 否 str description 作业节点的描述信息 否 str policy 节点执行的policy 否 StepPolicy depend_steps 依赖的节点列表 否 Step或者Step的列表 表2 JobInput 属性 描述 是否必填 数据类型 name 作业类型节点的输入名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符。同一个Step的输入名称不能重复 是 str data 作业类型节点的输入数据对象 是 数据集或OBS相关对象,当前仅支持Dataset,DatasetPlaceholder,DatasetConsumption,OBSPath,OBSConsumption,OBSPlaceholder,DataConsumptionSelector 表3 JobOutput 属性 描述 是否必填 数据类型 name 作业类型节点的输出名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符。同一个Step的输出名称不能重复 是 str obs_config 输出的OBS相关配置 否 OBSOutputConfig model_config 输出的模型相关配置 否 ModelConfig metrics_config metrics相关配置 否 MetricsConfig 表4 OBSOutputConfig 属性 描述 是否必填 数据类型 obs_path 已存在的OBS目录 是 str、Placeholder、Storage metric_file 存储metric信息的文件名称 否 str、Placeholder 表5 BaseAlgorithm 属性 描述 是否必填 数据类型 id 算法管理的算法ID 否 str subscription_id 订阅算法的订阅ID 否 str item_version_id 订阅算法的版本号 否 str code_dir 代码目录 否 str,Placeholder,Storage boot_file 启动文件 否 str,Placeholder,Storage command 启动命令 否 str,Placeholder parameters 算法超参 否 AlgorithmParameters的列表 engine 作业使用的镜像信息 否 JobEngine environments 环境变量 否 dict 表6 Algorithm 属性 描述 是否必填 数据类型 algorithm_id 算法管理的算法ID 是 str parameters 算法超参 否 AlgorithmParameters的列表 表7 AIGalleryAlgorithm 属性 描述 是否必填 数据类型 subscription_id 订阅算法的订阅ID 是 str item_version_id 订阅算法的版本号 是 str parameters 算法超参 否 AlgorithmParameters的列表 表8 AlgorithmParameters 属性 描述 是否必填 数据类型 name 算法超参的名称 是 str value 算法超参的值 是 int, bool, float, str, Placeholder, Storage 表9 JobEngine 属性 描述 是否必填 数据类型 engine_id 镜像ID 否 str,Placeholder engine_name 镜像名称 否 str,Placeholder engine_version 镜像版本 否 str,Placeholder image_url 镜像url 否 str,Placeholder 表10 JobSpec 属性 描述 是否必填 数据类型 resource 资源信息 是 JobResource log_export_path 日志输出路径 否 LogExportPath schedule_policy 作业调度配置策略 否 SchedulePolicy volumes 作业挂载的文件系统信息 否 list[Volume] 表11 JobResource 属性 描述 是否必填 数据类型 flavor 资源规格 是 Placeholder node_count 节点个数,默认为1,多节点表示支持分布式 否 int,Placeholder 表12 SchedulePolicy 属性 描述 是否必填 数据类型 priority 作业调度的优先级,仅支持配置为1、2、3,分别对应低、中、高三种优先级 是 int,Placeholder 表13 Volume 属性 描述 是否必填 数据类型 nfs NFS文件系统对象 否 NFS 表14 NFS 属性 描述 是否必填 数据类型 nfs_server_path NFS文件系统的服务地址 是 str,Placeholder local_path 挂载到容器里面的路径 是 str,Placeholder read_only 是否只读的方式挂载 否 bool,Placeholder 父主题: 作业类型节点
  • 查看Workflow运行记录 运行记录是展示某条工作流所有运行状态数据的地方。 在Workflow列表页,单击某条工作流的名称,进入该工作流的详情页面。 在工作流的详情页,左侧区域即为该条工作流的所有运行记录。 图1 查看运行记录 您可以对当前工作流的所有运行记录,进行删除、编辑以及重新运行的操作。 删除:若该条运行记录不再需要,您可以单击“删除”,在弹出的确认框中单击“确定”即可完成运行记录的删除。 编辑:若您想对您当前的工作流下的所有运行记录进行区分,您可以单击“编辑”,对每一条运行记录添加相应的标签予以区分。 重新运行:可以单击“重新运行”直接在某条记录上运行该工作流。 您可以对该条工作流的所有运行记录进行筛选和对比。 筛选:该功能支持您对所有运行记录按照“运行状态”和“运行标签”进行筛选。 图2 筛选 对比:针对某条工作流的所有运行记录,按照状态、运行记录、启动时间、运行时长、参数等进行对比。 图3 对比 当单击“启动”运行工作流时,运行记录列表会自动刷新,并更新至最新一条的执行记录数据,并与DAG图和总览数据面板双向联动更新数据。每次启动后都会新增一条运行记录。 用户可以单击Workflow详情页中任一节点查询节点运行状况。包括节点的属性(节点的运行状态、启动时间以及运行时长)、输入位置与输出位置以及参数(数据集的标注任务名称)。 父主题: 如何使用Workflow
  • Workflow Workflow是一个有向无环图(Directed Acyclic Graph,DAG),由节点和节点之间的关系描述组成。 节点与节点之间的依赖关系由单箭头的线段来表示,依赖关系决定了节点的执行顺序,示例中的工作流在启动后将从左往右顺序执行。DAG也支持多分支结构,用户可根据实际场景进行灵活设计,在多分支场景下,并行分支的节点支持并行运行。 表1 Workflow 属性 描述 是否必填 数据类型 name 工作流的名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64位字符 是 str desc 工作流的描述信息 是 str steps 工作流包含的节点列表 是 list[Step] storages 统一存储对象列表 否 Storage或者list[Storage] policy 工作流的配置策略,主要用于部分运行场景 否 Policy 父主题: 核心概念
  • 配置标签 在ModelArts管理控制台,左侧菜单栏单击“Workflow”。进入Workflow列表页。 在列表页根据Workflow工作流名称,找到需要打标签的工作流,单击工作流名称,进入工作流详情页。 在工作流详情页,单击左上角编辑按钮。 在弹出的编辑Workflow弹窗中,在标签框中输入相应的标签后,单击“新增标签”,新生成的标签会展示在标签行的下方,您可以同时增加多个标签。标签增加完成后,单击“确定”,标签即可生成。 图1 编辑 图2 新增标签
  • Step Step是组成Workflow的最小单元,体现在DAG中就是一个一个的节点,不同的Step类型承载了不同的服务能力,主要构成如下。 表1 Step 属性 描述 是否必填 数据类型 name 节点的名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符 是 str title 节点的标题信息,主要用于在DAG中的展示,如果该字段未填写,则默认使用name进行展示 否 str step_type 节点的类型,决定了节点的功能 是 enum inputs 节点的输入列表 否 AbstractInput或者list[AbstractInput] outputs 节点的输出列表 否 AbstractOutput或者list[AbstractOutput] properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy depend_steps 依赖节点的列表,该字段决定了DAG的结构,也决定了节点执行的顺序 否 Step或者list[Step] 表2 StepPolicy 属性 描述 是否必填 数据类型 poll_interval_seconds 节点调度时间周期,默认为1秒 是 str max_execution_minutes 节点运行超时时间,默认为10080分钟,即7天 是 str skip_conditions 节点是否跳过的条件列表 否 Condition或者Condition列表 Step是节点的超类,主要用于概念上的承载,用户不直接使用。根据功能的不同,构建了不同类型的节点,主要包括CreateDatasetStep、LabelingStep、DatasetImportStep、ReleaseDatasetStep、JobStep、ModelStep、ServiceStep、ConditionStep等,详情请见节点类型。 父主题: 核心概念
  • 属性总览 您可以使用DatasetImportStep来构建数据集导入节点,DatasetImportStep结构如下。 表1 DatasetImportStep 属性 描述 是否必填 数据类型 name 数据集导入节点的名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符,一个Workflow里的两个step名称不能重复。 是 str inputs 数据集导入节点的输入列表。 是 DatasetImportInput或者DatasetImportInput的列表 outputs 数据集导入节点的输出列表。 是 DatasetImportOutput或者DatasetImportOutput的列表 properties 数据集导入相关的配置信息。 是 ImportDataInfo title title信息,主要用于前端的名称展示。 否 str description 数据集导入节点的描述信息。 否 str policy 节点执行的policy。 否 StepPolicy depend_steps 依赖的节点列表。 否 Step或者Step的列表 表2 DatasetImportInput 属性 描述 是否必填 数据类型 name 数据集导入节点的输入名称,命名规范:只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符。同一个Step的输入名称不能重复。 是 str data 数据集导入节点的输入数据对象。 是 数据集、OBS或标注任务相关对象,当前仅支持Dataset,DatasetConsumption,DatasetPlaceholder,OBSPath,OBSConsumption,OBSPlaceholder,LabelTask,LabelTaskPlaceholder,LabelTaskConsumption,DataConsumptionSelector 表3 DatasetImportOutput 属性 描述 是否必填 数据类型 name 数据集导入节点的输出名称,命名规范(只能包含英文字母、数字、下划线(_)、中划线(-),并且只能以英文字母开头,长度限制为64字符)。同一个Step的输出名称不能重复。 是 str 表4 ImportDataInfo 属性 描述 是否必填 数据类型 annotation_format_config 导入的标注格式的配置参数。 否 AnnotationFormatConfig excluded_labels 不导入包含指定标签的样本。 否 Label的列表 import_annotated 用于导入智能标注结果的任务,是否导入原数据集中已标注的样本到待确认,默认值为"false"即不导入原数据集中已标注的样本到待确认。可选值如下: true:导入原数据集中已标注的样本到待确认 false:不导入原数据集中已标注的样本到待确认 否 bool import_annotations 是否导入标签。可选值如下: true:导入标签(默认值) false:不导入标签 否 bool import_samples 是否导入样本。可选值如下: true:导入样本(默认值) false:不导入样本 否 bool import_type 导入方式。可选值如下: dir:目录导入 manifest:按manifest文件导入 否 ImportTypeEnum included_labels 导入包含指定标签的样本。 否 Label的列表 label_format 标签格式,此参数仅文本类数据集使用。 否 LabelFormat 表5 AnnotationFormatConfig 属性 描述 是否必填 数据类型 format_name 标注格式的名称。 否 AnnotationFormatEnum parameters 标注格式的高级参数。 否 AnnotationFormatParameters scene 标注场景,可选参数。 否 LabelTaskTypeEnum 表6 AnnotationFormatParameters 属性 描述 是否必填 数据类型 difficult_only 是否只导入难例。可选值如下: true:只导入难例样本 false:导入全部样本(默认值) 否 bool included_labels 导入包含指定标签的样本。 否 Label的列表 label_separator 标签与标签之间的分隔符,默认为逗号分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。 否 str sample_label_separator 文本与标签之间的分隔符,默认为Tab键分隔,分隔符需转义。分隔符仅支持一个字符,必须为大小写字母,数字和“!@#$%^&*_=|?/':.;,”其中的某一字符。 否 str 父主题: 数据集导入节点
  • 从AI Gallery订阅的Workflow如何使用 登录AI Gallery的Workflow案例库。 从AI Gallery的Workflow资产页面,选择并订阅一个Workflow,勾选“我已阅读 《数据安全与隐私风险承担条款》 和 《华为云AI Gallery服务协议》”后,单击“继续订阅”。 订阅完成后,单击“运行”后跳转到ModelArts控制台界面,选择资产版本、Workflow名称、云服务区域以及工作空间,单击“导入”,进入该Workflow的详情页面。 图3 从AI Gallery导入工作流 单击右上角的“配置”后进入配置页面,根据您所订阅的工作流,配置Workflow需要的部分输入项和参数,参考表1,参数配置完成后,单击右上角的“保存配置”。 保存成功后,单击右上角的“启动”,启动Workflow。 Workflow进入运行页面,等待Workflow运行。 每一个节点运行状况页面的“状态”为此节点的运行状态,运行成功会自动执行下一个节点的运行,直至所有节点运行成功,代表Workflow完成运行。 图4 完成运行
  • 开发态-开发工作流 开发者结合实际业务的需求,通过Workflow提供的Python SDK,将ModelArts的能力封装成流水线中的一个个步骤。对于AI开发者来说是非常熟悉的开发模式,而且灵活度极高。Python SDK主要提供以下能力。 调测:部分运行、全部运行、debug。 发布:发布到运行态。 实验记录:实验的持久化及管理。 如何开发一条工作流请您参考入门教程开发第一条Workflow。
  • 使用JupyterLab打开Notebook实例准备环境 在Notebook列表中,选择2中创建好的实例,确保其状态为“运行中”,单击操作列的“打开”,进入JupyterLab页面。JupyterLab操作请参见JupyterLab简介及常用操作。 创建一个ipynb文件。 图2 创建一个ipynb文件 创建一个新的cell,运行如下命令,如果能成功导入,则表示环境已准备完成: from modelarts import workflow as wf 如果执行失败,可进行手动安装,具体操作见3。 在Notebook的第一个cell运行如下命令进行环境准备。 !rm modelarts*.whl !wget -N https://cn-north-4-training-test.obs.cn-north-4.myhuaweicloud.com/workflow-apps/v1.0.1/modelarts-1.4.18-py2.py3-none-any.whl !wget -N https://cn-north-4-training-test.obs.cn-north-4.myhuaweicloud.com/workflow-apps/v1.0.1/modelarts_workflow-1.0.1-py2.py3-none-any.whl !pip uninstall -y modelarts modelarts-workflow !pip install modelarts-1.4.18-py2.py3-none-any.whl !pip install modelarts_workflow-1.0.1-py2.py3-none-any.whl 环境安装成功验证: 创建一个新的cell,运行如下命令,如果能成功导入,则表示环境已安装成功: from modelarts import workflow as wf 如果导入失败,建议重新执行安装命令,或者重启kernel后再次执行安装命令。
  • 消息通知 Workflow使用了消息通知服务,支持用户在事件列表中选择需要监控的状态,并在事件发生时发送消息通知。如需订阅通知消息,则打开“订阅消息”开关。 打开开关后,需要先指定SMN主题名,如未创建主题名,需前往消息通知服务创建主题。 支持对Workflow中单个节点、多个节点以及工作流的相关事件进行订阅。订阅列表中,一行代表一个节点或者整条工作流的订阅。如需对多个节点的状态变化获取消息,则需增加多行订阅消息。 对每一个订阅对象,可以选择多个订阅事件,包含:“等待输入”、“运行成功”、“异常”三种事件。 父主题: 配置Workflow
  • 增量训练的操作步骤 登录ModelArts管理控制台,单击左侧导航栏的自动学习。 在自动学习项目管理页面,单击对应的项目名称,进入此项目的自动学习详情页。 在数据标注页面,单击未标注页签,在此页面中,您可以单击添加图片,或者增删标签。 如果增加了图片,您需要对增加的图片进行重新标注。如果您增删标签,建议对所有的图片进行排查和重新标注。对已标注的数据, 也需要检查是否需要增加新的标签。 在图片都标注完成后,单击右上角“开始训练”,在“训练设置”中,在“增量训练版本”中选择之前已完成的训练版本,在此版本基础上进行增量训练。其他参数请根据界面提示填写。 设置完成后,单击“确定”,即进行增量训练。系统将自动跳转至“模型训练”页面,待训练完成后,您可以在此页面中查看训练详情,如“训练精度”、“评估结果”、“训练参数”等。 图1 选择增量训练版本
  • 服务测试 您可以在“部署上线”页面,选择对应的服务类型,例如自动学习文本分类项目默认将服务部署为在线服务,进入“在线服务”页面,单击目标服务“操作”列的“预测”,进行服务测试,测试方法和下方陈述操作步骤一致。具体操作请参见测试服务。 您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务、访问边缘服务。 下面的测试,是您在自动学习文本分类项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,您可添加文本进行测试。在“自动学习”页面,选择目标项目,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域的文本框中,输入需测试的文本。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出测试结果。如模型准确率不满足预期,可在“数据标注”页签中添加数据并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 图2 预测 表1 预测结果中的参数说明 参数 说明 predicted_label 该段文本的预测类别。 score 预测为此类别的置信度。 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“模型训练”页签中,待训练状态变为“运行成功”,单击版本管理区域中的“部署”,开始将模型部署上线为在线服务。 图1 部署操作 在弹出的“部署”对话框中,选择资源规格,同时设置自动停止功能,然后单击确定,启动部署。 “计算节点规格”:以控制台实际为准。 “计算节点个数”:默认为1,且不能修改。 “是否自动停止”:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 启动部署上线后,可以在“部署上线”界面查看模型部署上线的状态。 部署上线将耗费较多时间,请您耐心等待。当“部署上线”页签版本管理区域的状态由“部署中”变更为“运行中”,部署完成。 在自动学习界面中,仅支持将训练后的模型部署为在线服务,如果需要部署为“批量服务”或“边缘服务”,请参见自动学习生成的模型,存储在哪里?支持哪些其他操作?。
  • 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 服务测试 您可以在“部署上线”页面,选择对应的服务类型,例如自动学习声音分类项目默认将服务部署为在线服务,进入“在线服务”页面,单击目标服务“操作”列的“预测”,进行服务测试,测试方法和下方陈述操作步骤一致。具体操作请参见测试服务。 您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务、访问边缘服务。 下面的测试,是您在自动学习声音分类项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,您可添加音频文件进行测试。在“自动学习”页面,选择目标项目,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域单击“上传”,选择本地音频进行测试。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出测试结果。如模型准确率不满足预期,可在“数据标注”页签中添加音频并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 表1 预测结果中的参数说明 参数 说明 predicted_label 该段音频的预测类别。 score 预测为此类别的置信度。 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“模型训练”页签中,待训练状态变为“运行成功”,单击版本管理区域中的“部署”,开始将模型部署上线为在线服务。 图1 部署操作 在弹出的“部署”对话框中,选择资源规格,同时设置自动停止功能,然后单击确定,启动部署。 “计算节点规格”:以控制台实际提供为准。 “计算节点个数”:默认为1,且不能修改。 “是否自动停止”:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 启动部署上线后,可以在“部署上线”界面查看模型部署上线的状态。 部署上线将耗费较多时间,请您耐心等待。当“部署上线”页签版本管理区域的状态由“部署中”变更为“运行中”,部署完成。 在自动学习界面中,仅支持将训练后的模型部署为在线服务,如果需要部署为“批量服务”或“边缘服务”,请参见自动学习生成的模型,存储在哪里?支持哪些其他操作?。
  • 同步或添加图片 在“数据标注”节点单击“实例详情”进入数据标注页面,数据标注的图片来源有两种,通过本地添加图片和同步OBS中的图片数据。 图3 添加本地图片 图4 同步OBS图片数据 添加数据:您可以将本地图片快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击“添加数据”,根据弹出的对话框的引导,输入正确的数据并添加。 同步新数据:将图片数据上传至创建项目时指定的OBS目录,然后单击“同步新数据”,快速将原OBS目录中的新数据添加到ModelArts数据集。 删除图片:您可以依次单击选中图片进行删除,也可以勾选“选择当前页”对该页面所有图片进行删除。 所有的删除操作均不可恢复,请谨慎操作。
  • 图片标注 在新版自动学习页面的数据标注节点单击“实例详情”按钮,前往数据标注页面。 图2 单击实例详情 依次勾选待标注的图片,或勾选“选择当前页”选中该页面所有图片,在页面右侧进行图片标注。 选中图片后,在页面右侧“添加标签”,输入“标签名”或从下拉列表中选择已添加的标签。单击“确定”,完成选中图片的标注操作。例如,您可以选择多张图片,按照花朵种类将图片标注为“tulips”。同样选择其他未标注分类图片,将其标注为“sunflowers”、“roses”等。标注完成后,图片将存储至“已标注”页签下。 图片标注支持多标签,即一张图片可添加多个标签。 标签名是由中文、大小写字母、数字、中划线或下划线组成。 当图片目录中所有图片都完成标注后,您可以在“已标注”页签下查看已完成标注的图片,或者通过右侧的“全部标签”列表,了解当前已完成的标签名称和标签数量。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于图片修改 在数据标注页面,单击“已标注”页签,然后在图片列表中选中待修改的图片(选择一个或多个)。在右侧标签信息区域中对图片信息进行修改。 添加标签:在“标签名”右侧文本框中,选择已有标签或输入新的标签名,然后单击,为选中图片增加标签。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 图5 编辑标签 删除标签:在“选中文件标签”区域中,单击操作列的删除该标签。 基于标签修改 在数据标注概览页,单击右侧的“标签管理”,即可显示全部标签的信息。 图6 全部标签的信息 修改标签:在需要修改的标签的“操作”列,单击“修改”,输入修改后的标签,单击“确定”即可。 删除标签:选择对应的标签,单击操作列的“删除”,在弹出的“删除标签”对话框中单击“确定”即可删除对应的标签。 删除后无法再恢复,请谨慎操作。
  • 操作步骤 在“自动学习”页面,单击创建成功的项目名称,进入“数据标注”页面,完成数据标注。 图1 完成数据标注 在“数据标注”页面,单击右上角的“开始训练”,然后在弹出的“训练设置”对话框中配置相关参数。参数说明请参见表1。请确保“训练验证比例”输入值的小数位数应在1~5之间。 表1 训练设置参数说明 参数 说明 默认值 数据集版本名称 此版本即数据管理中发布数据集时设置的版本。自动学习项目中,启动训练作业时,会基于前面的数据标注,将数据集发布为一个版本。 系统将自动给出一个版本号,您也可以根据实际情况进行填写。 系统随机给出 训练验证比例 训练验证比例表示将已标注样本随机分为训练集和验证集的比例,默认训练集比例为0.8,即训练集占0.8,验证集占0.2。manifest中的usage字段记录划分类别。取值范围为0~1。 0.8 增量训练版本 用户可以在之前训练成功的版本中,自主选择精度最高的版本进行再训练,可以加快模型收敛速度,提高训练精度。 无 最大训练时长(分钟) 即最大训练时长,在该时长内若训练还未完成,则保存模型停止训练。为防止模型未收敛就退出,建议使用较大值。输入值取值范围为6~6000。建议适当延长训练时间。 60 训练偏好 performance_first:性能优先,训练时间较短,模型较小 balance:平衡 accuracy_first:精度优先,训练时间较长,模型较大 balance 计算规格 选择训练使用的资源规格。 以控制台提供为准。 训练参数设置完成后,单击“下一步”进入配置页,确认规格后单击“提交”进行模型的自动训练,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 如果使用免费规格,还需仔细阅读界面提示,同时勾选“我已阅读并同意以上内容”。 在“模型训练”页签中,待训练状态由“运行中”变为“已完成”,即完成模型的自动训练。 图2 运行成功 训练完成后,您可以在界面中查看训练详情,如“准确率”、“评估结果”、“训练参数”、“分类统计表”等。评估结果参数说明请参见表2。 图3 模型训练结果 表2 评估结果参数说明 参数 说明 召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 F1值 F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“V001(xxx)”,下一个版本为“V002(xxx)”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。
  • 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。 登录ModelArts管理控制台,在左侧导航栏选择自动学习,进入自动学习总览页面。 在自动学习列表上方的搜索框中,根据您需要的属性类型,例如,名称、状态、项目类型、当前节点、标签等,过滤出相应的工作流。 单击搜索框右侧的按钮,可选择自动学习的基础设置,需要的显示列。 表格内容折行:默认为关闭状态,启用此能力可让表格内容自动折行,禁用此功能可截断文本。 操作列:默认为关闭状态,启用此能力可让操作列固定在最后一列永久可见。 自定义显示列:默认所有显示项全部勾选,您可以根据实际需要定义您的显示列。 图1 表格显示设置 单击“确定”即可按照设置好的显示列进行显示。 同时可支持对自动学习项目显示页进行排序,单击表头中的箭头,就可对该列进行排序。
  • 创建项目 登录ModelArts管理控制台,在左侧导航栏单击“自动学习”,进入新版自动学习页面。 在您需要的自动学习项目列表中。例如选择预测分析项目,单击“创建项目”,进入创建自动学习项目界面。 在创建自动学习项目页面,计费模式默认“按需计费”,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。 已有数据集:在“数据集”右侧的下拉框中选择,仅展示同类型的数据集供选择。 创建数据集:前往创建数据集页面创建一个新的数据集。具体可参考如何创建数据集。 “标签列” 可自行选择您需要预测的列名。 标签列是预测模型的输出。模型训练步骤将使用全部信息训练预测模型,该模型以其他列的数据为输入,以标签列的预测值为输出。部署上线步骤将使用预测模型发布在线预测服务。 “输出路径” 选择自动学习数据输出的统一OBS路径。 说明: “输出路径”是存储自动学习在运行过程中所有产物的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 若您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 单击“创建项目”,预测分析项目创建成功后页面自动跳转到“自动学习工作流”。 预测分析项目的工作流,将依次运行如下节点: 数据集版本发布:将已完成确认的数据进行版本发布。 数据校验:对您的数据集的数据进行校验,是否存在数据异常。 预测分析:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。
  • 数据上传至OBS 在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。 上传OBS的文件规范: 如不需要提前上传训练数据,请创建一个空文件夹用于存放工程后期生成的文件。如:“/bucketName/data-cat”。 如需要提前上传待标注的音频,请创建一个空文件夹,然后将音频文件保存在该文件夹下,音频的目录结构如:“/bucketName/data-cat/cat.wav”。 上传OBS的操作步骤: 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的音频,至少有2种以上的分类,每种分类的音频数据数不少20条。
  • 声音分类的数据要求 音频只支持16bit的WAV格式。支持WAV的所有子格式。 单条音频时长应大于1s,大小不能超过4MB。 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少20条,每类音频总时长至少5分钟。 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。 音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
  • 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 数据集要求 文件名规范:不能有+、空格、制表符。 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 每一类数据尽量多,尽量均衡。期望获得良好效果,图像分类项目中,建议训练数据集保证每类图片超过100张。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。
  • 图片标注 在“数据标注”页面单击“未标注”页签,此页面展示所有未标注的图片数据。单击任意一张图片,进入图片标注界面。 用鼠标框选图片中的物体所在区域,然后在弹出的对话框中选择标签颜色,输入标签名称,例如此示例中的“yunbao”,按“Enter”键完成此标签的添加。标注完成后,左侧图片目录中此图片的状态将显示为“已标注”。 数据标注的更多说明: 您可以在图片上方或下方单击左右切换键,或者按键盘的左右方向键,选择其他图片,重复上述操作继续进行图片标注。如果一张图片有多个物体,您可以标注多处。 同一个物体检测自动学习项目内,可以增加多个标签,且标签可选择不同颜色,方便识别。使用鼠标完成物体框选后,在弹出的对话框中,选择新的颜色,输入新的标签名称,即可添加一个新的标签。 自动学习项目中,物体检测仅支持矩形标注框。在“数据管理”功能中,物体检测类型的数据集,支持更多类型的标注框。 在标注窗口中,您可以滚动鼠标,放大或缩小图片,方便您快速定位到物体位置。 图1 物体检测图片标注 当图片目录中所有图片都完成标注后,单击左上角“自动学习”,在弹出的对话框中单击“确定”保存标注信息。页面将进入数据标注页面,可以在“已标注”页签下查看已完成标注的图片,或者通过右侧的标签信息,了解当前已完成的标签名称和标签数量。
共100000条