华为云用户手册

  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于图片修改 在数据集详情页面,单击“已标注”页签,然后在图片列表中选中待修改的图片,单击该图片跳转到标注页面,在右侧“标注”信息区域中对图片信息进行修改。 修改标签:“标注”区域中,单击编辑按钮,在文本框中输入正确的标签名,然后单击按钮完成修改。标签颜色不支持修改。 删除标签:在“标注”区域中,单击删除按钮,即可删除此图片中的标签。 标签删除后,单击页面左上角的项目名称离开标注页面。该图片会重新回到“未标注”页签。 图4 编辑物体检测标签 基于标签修改 在数据集详情页面,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。单击操作列的编辑按钮,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的图片,都将被标注为新的标签名称。 图5 物体检测的全部标签
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择部署上线使用的资源规格。 AI应用来源:默认为生成的AI应用。 选择AI应用及版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 若您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将AI应用部署为在线服务。
  • 服务测试 服务部署节点运行成功后,单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签,进行服务测试。您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务。 图1 服务测试 下面的测试,是您在自动学习物体检测项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,“服务部署”节点,单击“实例详情”按钮,进入服务预测界面,在“预测”页签单击“上传”,选择本地图片进行测试。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出结果。如模型准确率不满足预期,可在“数据标注”页签中添加图片并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 目前只支持jpg、jpeg、bmp、png格式的图片。 表1 预测结果中的参数说明 参数 说明 detection_classes 每个检测框的标签。 detection_boxes 每个检测框的四点坐标(y_min,x_min,y_max,x_max),如图2所示。 detection_scores 每个检测框的置信度。 图2 检测框的四点坐标示意图 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 创建项目 登录ModelArts管理控制台,在左侧导航栏单击“自动学习”,进入新版自动学习页面。 在您需要的自动学习项目列表中,单击“创建项目”,进入创建自动学习项目界面。 在创建自动学习项目页面,参考表1填写相应参数。 表1 参数说明 参数 说明 “名称” 项目的名称。 名称只能包含数字、字母、下划线和中划线,长度不能超过64位且不能为空。 名称请以字母开头。 名称不允许重复。 “描述” 对项目的简要描述。 “数据集” 可在右侧下拉框选择已有数据集,或单击“创建数据集”前往新建数据集。 已有数据集:在“数据集”右侧的下拉框中选择,仅展示同类型的数据集供选择。 创建数据集:前往创建数据集页面创建一个新的数据集。具体可参考如何创建数据集。 “输出路径” 选择自动学习数据输出的统一OBS路径。 说明: “输出路径”是存储自动学习在运行过程中所有产物的路径。 “训练规格” 选择自动学习训练节点所使用的资源规格,以实际界面显示为准,将会根据不同的规格计费。 说明: 只有北京四区域支持限时免费规格。 若您购买了套餐包,可优先选择您对应规格的套餐包,在“配置费用”处会显示您的套餐余量,以及超出的部分如何计费,请您关注,避免造成不必要的资源浪费。 单击“创建项目”,物体检测项目创建成功后页面自动跳转到“自动学习工作流”。 物体检测项目的工作流,将依次运行如下节点: 数据标注:对您的数据进行标注情况确认。 数据集版本发布:将已完成标注的数据进行版本发布。 数据校验:对您的数据集的数据进行校验,是否存在数据异常。 物体检测:将发布好的数据集版本进行训练,生成对应的模型。 模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。
  • 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。 登录ModelArts管理控制台,在左侧导航栏选择自动学习,进入自动学习总览页面。 在自动学习列表上方的搜索框中,根据您需要的属性类型,例如,名称、状态、项目类型、当前节点、标签等,过滤出相应的工作流。 单击搜索框右侧的按钮,可选择自动学习的基础设置,需要的显示列。 表格内容折行:默认为关闭状态,启用此能力可让表格内容自动折行,禁用此功能可截断文本。 操作列:默认为关闭状态,启用此能力可让操作列固定在最后一列永久可见。 自定义显示列:默认所有显示项全部勾选,您可以根据实际需要定义您的显示列。 图1 表格显示设置 单击“确定”即可按照设置好的显示列进行显示。 同时可支持对自动学习项目显示页进行排序,单击表头中的箭头,就可对该列进行排序。
  • 操作步骤 选择“标签列”。在“数据标注”页面中,预览数据并选择训练目标。在“标签列”下拉框中选择需要设置为标签列的名称。 标签列是预测模型的输出。此处训练目标是鸢尾花的品种(即“attr_5”),该列目标结果是“离散值”。训练目标选择完成后,单击“训练”。 图1 预测分析数据标注界面 选择“标签列数据类型”。在“数据标注”页面中,“标签列数据类型”下选择合适的数据类型。 若标签列为枚举型数据,数据类型应选择“离散值”,预测分析将训练分类模型。 若标签列为数值型连续数据,数据类型应选择“连续数值”,预测分析将训练回归模型。 分类问题(离散值)在模型训练完成后,评估结果会展现召回率(Recall)、精确率(Precision)、准确率(Accuracy)及F1值(F1 Score)。 连续值在模型训练完成后,评估结果会展现平均绝对误差(Mean Absolute Error),均方误差(Mean Squared Error),均方根误差(Root Mean Squared Error)。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。 在服务部署页面,选择部署上线使用的资源规格。 AI应用来源:默认为生成的AI应用。 选择AI应用及版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 若您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,在弹框中确认继续运行后,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将AI应用部署为在线服务。
  • 同步或添加音频 在“数据标注”节点单击“实例详情”进入“音频标注”页面。声音分类项目创建时,音频来源有两种,通过本地添加或同步OBS中的数据。 添加音频:您可以将本地音频快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击“添加数据”,在弹出的对话框中输入正确的数据并添加。 仅支持16bit WAV格式音频文件,单个音频文件不能超过4MB,且单次上传的音频文件总大小不能超过8MB。 数据源同步:为了快速获取用户OBS桶中最新音频,单击“数据源同步”,快速将通过OBS上传的音频数据添加到ModelArts。 删除音频:您可以依次单击选中音频,或勾选“选择当前页”选中该页面所有音频进行删除操作。 所有的删除操作均不可恢复,请谨慎操作。
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 基于音频修改 在数据集详情页,单击“已标注”页签,然后在音频列表中选中待修改的音频(选择一个或多个)。在右侧标签信息区域中对标签进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标,在弹出的对话框中单击“确定”删除该标签。 基于标签修改 在数据标注页面,单击右侧的“标签管理”,在标签管理页,显示全部标签的信息。 修改标签:单击操作列的“修改”按钮,在弹出的对话框中输入修改后的标签名、选择修改后的快捷键,然后单击“确定”完成修改。修改后,之前添加了此标签的音频,都将被标注为新的标签名称。 删除标签:单击操作列的“删除”按钮,在弹出的对话框中,根据提示选择删除对象,然后单击“确定”。 删除后的标签无法恢复,请谨慎操作。
  • 音频标注 在新版自动学习页面单击“实例详情”按钮,前往数据标注页面。单击任意一张图片,进入音频标注页面。 在“音频标注”页面单击“未标注”页签,此页面展示所有未标注的音频数据。依次单击选中待标注的音频,或勾选“选择当前页”选中该页面所有音频,在页面右侧进行标注。 图2 音频标注 添加标注。先对音频进行播放识别,然后选中音频文件,在右侧“标签”区域,输入“标签名”或从下拉列表中选择已添加的标签,同时可在下拉菜单中选择标签“快捷键”。单击“确定”,完成选中音频的标注操作。 当目录中所有音频都完成标注后,您可以在“已标注”页签下查看已完成标注的音频,或者通过右侧的“全部标签”列表,了解当前已完成的标签名称和标签数量。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“模型训练”页签中,待训练状态变为“运行成功”,单击版本管理区域中的“部署”,开始将模型部署上线为在线服务。 图1 部署操作 在弹出的“部署”对话框中,选择资源规格,同时设置自动停止功能,然后单击确定,启动部署。 “计算节点规格”:以控制台实际提供为准。 “计算节点个数”:默认为1,且不能修改。 “是否自动停止”:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 启动部署上线后,可以在“部署上线”界面查看模型部署上线的状态。 部署上线将耗费较多时间,请您耐心等待。当“部署上线”页签版本管理区域的状态由“部署中”变更为“运行中”,部署完成。 在自动学习界面中,仅支持将训练后的模型部署为在线服务,如果需要部署为“批量服务”或“边缘服务”,请参见自动学习生成的模型,存储在哪里?支持哪些其他操作?。
  • 服务测试 您可以在“部署上线”页面,选择对应的服务类型,例如自动学习图像分类项目默认将服务部署为在线服务,进入“在线服务”页面,单击目标服务“操作”列的“预测”,进行服务测试,测试方法和下方陈述操作步骤一致。具体操作请参见测试服务。 您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务、访问边缘服务。 下面的测试,是您在自动学习图像分类项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,您可添加图片进行测试。在“自动学习”页面,选择目标项目,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域单击“上传”,选择本地图片进行测试。 图2 上传图片 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出标签名称“sunflowers”和检测的评分。如模型准确率不满足预期,可在“数据标注”页签中添加图片并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 目前只支持jpg、jpeg、bmp、png格式的图片。 图3 预测结果 表1 预测结果中的参数说明 参数 说明 predict_label 表示图片预测的标签。 scores 表示Top5标签的预测置信度。 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 自动学习功能介绍 ModelArts自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力,只需上传数据,通过自动学习界面引导和简单操作即可完成模型训练和部署。 当前自动学习支持快速创建图像分类、物体检测、预测分析、声音分类和文本分类模型的定制化开发。可广泛应用在工业、零售安防等领域。 图像分类:识别图片中物体的类别。 物体检测:识别出图片中每个物体的位置和类别。 预测分析:对结构化数据做出分类或数值预测。 声音分类:对环境中不同声音进行分类识别。 文本分类:识别一段文本的类别。文本分类目前只支持中文。 旧版自动学习仅支持使用旧版数据集功能,不支持使用新版数据集功能。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行总览”页面中,待服务部署节点的状态变为“等待输入”,双击“服务部署”节点,进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择部署上线使用的资源规格。 AI应用来源:默认为生成的AI应用。 选择AI应用版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 若您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,在弹框中确认继续运行后,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将AI应用部署为在线服务。
  • 服务测试 服务部署节点运行成功后,单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签,进行服务测试。您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务、访问边缘服务。 图1 服务测试 下面的测试,是您在自动学习文本分类项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,您可添加文本进行测试。在“自动学习”页面,选择目标项目,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域的文本框中,输入需测试的文本。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出测试结果。如模型准确率不满足预期,可在“数据标注”页签中添加数据并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 表1 预测结果中的参数说明 参数 说明 predicted_label 该段文本的预测类别。 score 预测为此类别的置信度。 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行总览”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择部署上线使用的资源规格。 AI应用来源:默认为生成的AI应用。 选择AI应用及版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 若您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,在弹框中确认继续运行后,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将AI应用部署为在线服务。
  • 服务测试 服务部署节点运行成功后,单击“实例详情”可跳转至对应的在线服务详情页面。单击“预测”页签,进行服务测试。您也可以通过调用代码对服务进行测试,根据部署服务类型的不同,具体操作详情参见访问在线服务、访问边缘服务。 图1 服务测试 下面的测试,是您在自动学习声音分类项目页面将模型部署上线之后进行服务测试的操作步骤。 模型部署完成后,您可添加音频文件进行测试。在“自动学习”页面,选择服务部署节点,单击实例详情,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域单击“上传”,选择本地音频进行测试。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出测试结果。如模型准确率不满足预期,可在“数据标注”页签中添加音频并进行标注,重新进行模型训练及部署上线。预测结果中的参数说明请参见表1。如果您对模型预测结果满意,可根据界面提示调用接口访问在线服务,操作指导请参见“访问在线服务”。 表1 预测结果中的参数说明 参数 说明 predicted_label 该段音频的预测类别。 score 预测为此类别的置信度。 由于“运行中”的在线服务将持续耗费资源,如果不需再使用此在线服务,建议在版本管理区域,单击“停止”,即可停止在线服务的部署,避免产生不必要的费用。如果需要继续使用此服务,可单击“启动”恢复。 如果您启用了自动停止功能,服务将在指定时间后自动停止,不再产生费用。
  • 操作步骤 参考数据标注章节,确保您的数据已全部完成标注。 在新版自动学习页面,单击数据标注节点的“继续运行”按钮,然后等待工作流按顺序进入训练节点即可。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“图像分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以单击“图像分类”节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。评估结果参数说明请参见表1。 图1 模型评估报告 表1 评估结果参数说明 参数名称 参数含义 说明 recall 召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 precision 精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 accuracy 准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 f1 F1值 F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练会注册一个新的AI应用版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。
  • 操作步骤 在开始训练之前,需要设置训练参数,然后再开始模型的自动训练。 在自动学习页面,单击创建成功的项目名称,进入“数据标注”页面,完成数据标注。 图1 完成数据标注 在“数据标注”页面,单击右上角“开始训练”,然后在弹出的“训练设置”对话框中,参考表1填写相关参数,然后单击“确定”,开始进行模型训练。 表1 训练设置参数说明 参数 说明 默认值 数据集版本名称 此版本即数据管理中发布数据集时设置的版本。自动学习项目中,启动训练作业时,会基于前面的数据标注,将数据集发布为一个版本。 系统将自动给出一个版本号,您也可以根据实际情况进行填写。 系统随机给出 最大训练时长(分钟) 设置最大训练时长,在该时长内若训练还未完成,则强制退出。为防止训练中退出,建议使用较大值。输入取值范围为6~6000。 60 计算规格 选择训练使用的资源规格。 以控制台实际提供为准。 训练参数设置完成后,单击“下一步”进入配置页,确认规格后单击“提交”进行模型的自动训练,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“模型训练”页签中,待训练状态由“运行中”变为“已完成”,即完成模型的自动训练。 训练完成后,您可以在界面中查看训练详情,如“准确率”、“评估结果”、“训练参数”、“分类统计表”等。 图2 训练详情 表2 评估结果参数说明 参数 说明 召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 F1值 F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练生成一个版本。如第一次训练版本号为“V001(xxx)”,下一个版本为“V002(xxx)”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。
  • 修改标签 针对文本分类的自动学习项目,项目创建成功后,您可以根据业务变化,修改用于标注的标签。支持添加、修改和删除标签。 添加标签 在“已标注”页签下,单击“全部标签”右侧的加号,在弹出“新增标签”对话框中,设置“标签名称”和“标签颜色”,然后单击“确定”完成标签添加。 修改标签 在“已标注”页签中“全部标签”的下方,选择需要修改的标签,单击操作列的编辑图标,在弹出“修改标签”对话框中,修改“标签名称”或“标签颜色”,然后单击“确定”完成标签修改。 删除标签 在“已标注”页签中“全部标签”的下方,选择需要删除的标签,单击操作列的删除图标,在弹出“删除”对话框中,选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”,然后单击“确定”完成标签删除。 所有的删除操作均不可恢复,请谨慎操作。 图4 修改标签
  • 添加或删除数据 自动学习项目中,数据来源为数据集中输入位置对应的OBS目录,当目录下的数据无法满足现有业务时,您可以在ModelArts自动学习页面中,添加或删除数据。 添加文件 在“未标注”页签下,可单击页面左上角的“添加文件”,您可以在弹出对话框中,选择本地文件上传。 上传文件格式需满足文本分类的数据集要求。 删除文本对象 在“已标注”页签或“未标注”页签下,选中需要删除的文本对象,单击页面左上角的“删除”,在弹出的对话框中,确认删除信息后,单击“确定”。 在“已标注”页签下,您还可以勾选“选择当前页”,单击“删除”,即可删除当前页下所有的文本对象及其标注信息。 图2 添加文件或删除文本对象
  • 部署上线 部署上线操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。 在服务部署页面,选择部署上线使用的资源规格。 AI应用来源:默认为生成的AI应用。 选择AI应用及版本:自动匹配当前使用的AI应用版本,支持选择版本。 资源池:默认公共资源池。 分流:默认为100,输入值必须是0-100之间。 计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、“6小时后”、“自定义”。如果选择“自定义”的模式,可在右侧输入框中输入1~24范围内的任意整数。 若您购买了套餐包,计算节点规格可选择您的套餐包,同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式,请您务必关注,避免造成不必要的资源浪费。 完成资源配置后,单击“继续运行”,服务部署节点将继续运行,直至状态变为“运行成功”,至此,已将AI应用部署为在线服务。
  • 数据上传至OBS 在本文档中,采用通过OBS管理控制台将数据上传至OBS桶。 上传OBS的文件规范: 预测分析项目的OBS数据路径需符合以下规则: 输入数据的OBS路径应指向数据文件,且文件不能直接放在OBS桶的根目录下,应该存放在OBS桶的文件夹内。如:“/obs-xxx/data/input.csv”。 输入数据的格式必须为csv格式,有效数据行数必须大于100行。列数必须小于200列,数据总大小不能超过100MB。 上传OBS操作步骤: 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 常见问题 使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息代表表格的列名和对应类型,需要跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的原始表格中没有表头,需关闭“导入是否包含表头”开关,从OBS选择数据后,Schema信息的列名默认为表格中的第一行数据,请更改Schema信息中的“列名”为attr_1、attr_2、……、attr_n,其中attr_n为最后一列,代表预测列。
  • 自动学习流程介绍 使用ModelArts自动学习开发AI模型无需编写代码,您只需上传数据、创建项目、完成数据标注、发布训练、然后将训练的模型部署上线。具体流程请参见图1。新版自动学习中,该流程可完全由Workflow进行承载,如图2。开发者可以通过Workflow进行有向无环图(Directed Acyclic Graph,DAG)的开发,整个DAG的执行就是有序的任务执行模板,依次执行从数据标注、数据集版本发布、模型训练、模型注册到服务部署环节。若想了解更多关于Workflow您可以参考Workflow简介。 图1 自动学习操作流程 图2 Workflow运行流程
  • 自动学习功能介绍 ModelArts自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力,只需上传数据,通过自动学习界面引导和简单操作即可完成模型训练和部署。 当前自动学习支持快速创建图像分类、物体检测、预测分析、声音分类和文本分类模型的定制化开发。可广泛应用在工业、零售安防等领域。 图像分类:识别图片中物体的类别。 物体检测:识别出图片中每个物体的位置和类别。 预测分析:对结构化数据做出分类或数值预测。 声音分类:对环境中不同声音进行分类识别。 文本分类:识别一段文本的类别。
  • 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
  • 声音分类的数据要求 音频只支持16bit的WAV格式。支持WAV的所有子格式。 单条音频时长应大于1s,大小不能超过4MB。 适当增加训练数据,会提升模型的精度。声音分类建议每类音频至少50条,每类音频总时长至少5分钟。 建议训练数据和真实识别场景的声音保持一致并且每类的音频尽量覆盖真实环境的所有场景。 训练集的数据质量对于模型的精度有很大影响,建议训练集音频的采样率和采样精度保持一致。 标注质量对于最终的模型精度有极大的影响,标注过程中尽量不要出现误标情况。 音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
  • 操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运行总览页面,单击数据标注节点的“实例详情”进入数据标注页面,完成数据标注。 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会自动进入训练,无需人工介入,训练时间相对较长,建议您耐心等待。如果关闭或退出此页面,系统仍然在执行训练操作。 在“声音分类”节点中,待训练状态由“运行中”变为“运行成功”,即完成模型的自动训练。 训练完成后,您可以单击声音分类节点上方的按钮,查看相关指标信息,如“准确率”、“评估结果”等。 表1 评估结果参数说明 参数 说明 recall:召回率 被用户标注为某个分类的所有样本中,模型正确预测为该分类的样本比率,反映模型对正样本的识别能力。 precision:精确率 被模型预测为某个分类的所有样本中,模型正确预测的样本比率,反映模型对负样本的区分能力。 accuracy:准确率 所有样本中,模型正确预测的样本比率,反映模型对样本整体的识别能力。 f1:F1值 F1值是模型精确率和召回率的加权调和平均,用于评价模型的好坏,当F1较高时说明模型效果较好。 同一个自动学习项目可以训练多次,每次训练会注册一个新的AI应用版本。如第一次训练版本号为“0.0.1”,下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后,再执行部署上线的操作。
  • 数据上传至OBS 在本文档中,采用管理控制台上传数据至OBS。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在ModelArts同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与ModelArts在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。
共100000条