华为云用户手册

  • 筛选数据 在标注作业详情页面,默认展示作业中“未标注”的数据,您可以在“全部”、“未标注”或页签下,在筛选条件区域,单击“”,添加筛选条件,快速过滤出您想要查看的数据。 支持的筛选条件如下所示,您可以设置一个或多个选项进行筛选。 难例集:难例或非难例。 标签:您可以选择全部标签,或者基于您指定的标签,选中其中一个或多个。 文件名或目录:根据文件名称或者文件存储目录筛选。 标注人:选择执行标注操作的账号名称。 样本属性:表示自动分组生成的属性。只有启用了自动分组任务后才可使用此筛选条件。 数据属性:筛选数据的来源,选择“全部”或“推理”。 图2 筛选条件
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 注意事项 在开始标注之前,需确保标注作业对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和“终止实体”。“关系标签”只能添加至其设置好的“起始实体”和“终止实体”之间。 例如,如图1所示,当两个文本都被标注为“地点”,那么针对这两个实体,无法添加本示例中的任意一个关系标签。当无法添加某个关系标签时,界面将显示一个红色的叉号,如图2所示。 图1 实体标签和关系标签的示例 图2 无法添加关系标签
  • 标注文本 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选中相应文本内容,在页面呈现的实体类型列表中选择实体名称,完成实体标注。 图4 实体标注 在完成多个实体标注后,鼠标左键依次单击起始实体和终止实体,在呈现的关系类型列表中选择一个对应的关系类型,完成关系标注。 图5 关系标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。 “文本三元组”类型的数据集,不支持在标注页面修改标签,需要进入“标签管理”页面,修改“实体标签”和“关系标签”。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在标注作业详情页,单击“已标注”页签,在左侧文本列表中选中一行文本,右侧区域显示具体的标注信息。将鼠标移动至对应的实体标签或关系类型,单击鼠标右键,可删除此标注。单击鼠标左键,依次单击连接起始实体和终止实体,可增加关系类型,增加关系标注。 图6 在文本中修改标签 您也可以在单击页面下方的“删除当前项标签”按钮,删除选中文本对象中的所有标签。 图7 删除当前项标签
  • 删除文件 通过数据删除操作,可将需要丢弃的文件数据快速删除。 在“未标注”页面中,单击选中需要删除的文本,然后单击左上角“删除”,即可完成文本的删除操作。 在“已标注”页面中,选中待删除的文本,然后单击“删除”,删除单个文本。或者勾选“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。 其中,被选中的文本,其背景将显示为蓝色。如果当前页面无选中文本时,“删除”按钮为灰色,无法执行删除操作。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 文本(文本分类、命名实体、文本三元组) 图5 文本分类、命名实体、文本三元组类型的参数 表3 文本类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(文本分类、命名实体) 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 图6 设置标签颜色 添加标签集(文本三元组) 针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。 图7 添加标签 启用团队标注 选择是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见添加团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 图片(图像分类、物体检测、图像分割) 图3 图像分类和物体检测类型的参数 表1 图片类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集 设置标签名称:在标签名称文本框中,输入标签名称。长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 设置标签颜色:“物体检测”和“图像分割”类型标注作业需设置此参数。在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 设置标签属性:针对“物体检测”类型标注作业,在设置完标签颜色后,可在右侧单击加号,增加对应的标签属性。标签属性用于区分同一标签物体的不同属性。例如,黄色小猫、黑色小猫。标签为cat,颜色为不同的标签属性。 启用团队标注 选择是否启用团队标注。图像分割暂不支持团队标注,当选择图像分割类型时,界面不显示此参数。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见添加团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 标注作业支持的数据类型 对于不同类型的数据集,用户可以选择不同的标注任务,当前ModelArts支持如下类型的标注任务。 图片 图像分类:识别一张图片中是否包含某种物体。 物体检测:识别出图片中每个物体的位置及类别。 图像分割:根据图片中的物体划分出不同区域。 音频 声音分类:对声音进行分类。 语音内容:对语音内容进行标注。 语音分割:对语音进行分段标注。 文本 文本分类:对文本的内容按照标签进行分类处理。 命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。 文本三元组:针对文本中的实体片段和实体之间的关系进行标注。 视频 视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。
  • 音频(声音分类、语音内容、语音分割) 图4 声音分类、语音内容、语音分割类型的参数 表2 音频类型标注作业的详细参数 参数名称 说明 数据集名称 选择支持当前标注类型的数据集。 添加标签集(声音分类) “声音分类”类型的标注作业可以添加标签集。 设置标签名称:在标签名称文本框中,长度为1~1024字符。 添加标签:单击“添加标签”可增加多个标签。 标签管理(语音分割) “语音分割”类型的标注作业,支持标签管理。 单标签 单标签适用于一段音频标注只有一种类别的音频,通常标注一个标签。 设置标签名称:在“标签名”列输入标签名称。长度为1~1024字符。 设置标签颜色:在“标签颜色”列设置标签颜色。可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。 多标签 多标签适用于多维度标注,例如在一段音频标注噪音与人说话的声音两种类别,其中说话的声音还可以标注为不同人的声音。单击“新建标签类别”可添加多个标签类别,一个标签类别可以包含多个标签。“标签类别”和“标签名”只能是中文、字母、数字、英文句号、下划线或中划线组成的合法字符串。长度为1~256字符。 设置标签类别:在“标签类别”输入标签类别的名称。 设置标签名称:在“标签名”输入标签名称。 添加标签:单击“添加标签”可增加多个标签。 启用语音内容标注(语音分割) 仅“语音分割”类型数据集支持设置,默认关闭。如果启用此功能,支持针对语音内容进行标注。 启用团队标注(语音分割) 仅“语音分割”类型支持团队标注,因此选择创建语音分割类型时,支持设置是否启用团队标注。 启用团队标注功能,需填写对应的团队标注任务“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务。 在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见添加团队。 启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。
  • 视频标注 标注作业详情页中,展示了此数据集中“未标注”、“已标注”和“全部”的视频。 在“未标注”页签左侧视频列表中,单击目标视频文件,打开标注页面。 在标注页面中,播放视频,当视频播放至待标注时间时,单击进度条左侧的暂停按钮,将视频暂停至某一帧对应的画面。 在上方区域选择标注框,默认为矩形框。使用鼠标在视频画面中框出目标,然后在弹出的添加标签文本框中,直接输入新的标签名,在文本框前面选中标签颜色,单击“添加”完成1个物体的标注。如果已存在标签,从下拉列表中选择已有的标签,然后单击“添加”完成标注。逐步此画面中所有物体所在位置,一帧对应的画面可添加多个标签。 支持的标注框与“物体检测”类型一致,详细描述请参见物体检测章节的表2 标注界面的常用按钮。 图2 视频标注 上一帧对应的画面标注完成后,在进度条处单击播放按钮继续播放,在需要标注处暂停,然后重复执行步骤3完成整个视频的标注。 单击界面右上角的“标注列表”,在“当前文件标签”的详情页将呈现当前视频带标注的时间点。 图3 当前文件标签信息 单击页面左上角“返回数据标注预览”,页面将自动返回标注作业详情页面,同时,标注好的视频将呈现在“已标注”页签下。
  • 删除视频 通过数据删除操作,可将需要丢弃的视频数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的视频,或者选择“选择当前页”选中该页面所有视频,然后单击上边的“删除”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成视频删除操作。 其中,被选中的视频,其左上角将显示为勾选状态。如果当前页面无选中视频时,“删除视频”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除OBS源文件”,删除视频操作将删除对应OBS目录下存储的视频,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 同步数据源 ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。 为了快速获取OBS桶中最新数据,可在数据集详情页的“已标注”或“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,修改标注数据。 在“已标注”页签下,单击目标视频文件,在标注页面的右上方选择“标注列表”进入“当前文件标签”详情页面,可单击时间点右侧小三角展开详情,您可以修改或删除标签。 修改标签:在“当前文件标签”详情页,单击标签右侧的编辑按钮,标签名称可进行修改。 删除标签:在“当前文件标签”详情页,单击标签右侧的删除按钮,将直接删除此标签。如果单击画面时间右侧的删除按钮,将删除此画面下的所有标签。 图4 修改标注
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”和“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 标注音频 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。单击音频左侧,即可进行音频的试听。 在“未标注”页签,勾选需进行标注的音频。 手工点选:在音频列表中,单击音频,当右上角出现蓝色勾选框时,表示已勾选。可勾选同类别的多个音频,一起添加标签。 批量选中:如果音频列表的当前页,所有音频属于一种类型,可以在列表的右上角单击“选择当前页”,则当前页面所有的音频将选中。 添加标签。 在右侧的“添加标签”区域中,单击“标签”下侧的文本框设置标签。 方式一(已存在标签):单击“标签”下方的文本框,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中选择已有的标签名称,然后单击“确定”。 方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”。 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。 快捷键的使用说明:为标签指定快捷键后,当您选择一段音频后,在键盘中按一下快捷键,即可为此音频增加为此快捷键对应的标签。例如“aa”标签对应的快捷键是“1”,在数据标注过程中,选中1个或多个文件,按“1”,界面将提示是否需要将此文件标注为“aa”标签,单击确认即可完成标注。 快捷键对应的是标签,1个标签对应1个快捷键。不同的标签,不能指定为同一个快捷键。快捷键的使用,可以大幅提升标注效率。 图2 添加音频标签
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 基于音频修改 在标注作业详情页面,单击“已标注”页签,然后在音频列表中选中待修改的音频(选择一个或多个)。在右侧标签信息区域中对标签进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标删除该标签。 基于标签修改 在标注作业详情页面,单击“已标注”页签,在音频列表右侧,显示全部标签的信息。 图3 全部标签信息 修改标签:单击操作列的编辑图标,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的音频,都将被标注为新的标签名称。 删除标签:单击操作列的删除图标,在弹出的对话框中,根据提示框选择需要删除的对象,然后单击“确定”完成删除。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,或者选择“选择当前页”选中该页面所有音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成音频删除操作。 其中,被选中的音频,其右上角将显示为勾选状态。如果当前页面无选中音频时,“删除音频”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除OBS源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 同步数据源 ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。 为了快速获取OBS桶中最新数据,可在数据集详情页的“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成音频删除操作。 如果勾选了“同时删除OBS源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 标注音频 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。 在“未标注”页签左侧音频列表中,单击目标音频文件,在右侧的区域中出现音频,单击音频下方,即可进行音频播放。 根据播放内容,选取合适的音频段,在下方“语音内容”文本框中填写音频标签和内容。 图2 语音标签音频标注 输入内容后单击下方的“确认标注”按钮完成标注。音频将被自动移动至“已标注”页签。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“全部”、“未标注”或“已标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 删除图片 通过数据删除操作,可将需要丢弃的图片数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者选择“选择当前页”选中该页面所有图片,然后单击“删除”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除OBS源文件”,确认信息无误后,单击“确定”完成图片删除操作。 图12 删除图片 其中,被选中的图片,其左上角将显示为勾选状态。如果当前页面无选中图片时,“删除”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除OBS源文件”,删除图片操作将删除对应OBS目录下存储的图片,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 筛选数据 在标注作业详情页面,默认展示作业中全部未标注的数据,您可以在“全部”、“未标注”或“已标注”页签下,在筛选条件区域,单击,添加筛选条件,快速过滤出您想要查看的数据。 支持的筛选条件如下所示,您可以设置一个或多个选项进行筛选。 难例集:难例或非难例。 标签:您可以选择全部标签,或者基于您指定的标签,选中其中一个或多个。 文件名或目录:根据文件名称或者文件存储目录筛选。 标注人:选择执行标注操作的账号名称。 样本属性:表示自动分组生成的属性。只有启用了自动分组任务后才可使用此筛选条件。 数据属性:筛选数据的来源,选择“全部”或“推理”。 图2 筛选条件
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于图片修改 在标注作业详情页面,单击“已标注”页签,然后在图片列表中选中待修改的图片(选择一个或多个)。在右侧标签信息区域中对图片信息进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标删除该标签。此操作仅删除选中图片中的标签。 图6 编辑标签 基于标签修改 在标注作业详情页,单击右侧区域的“标签管理”,显示全部标签列表。 修改标签:单击操作列的“修改”,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的图片,都将被标注为新的标签名称。 删除标签:单击操作列“删除”,添加了此标签的图片,都将删除此标签。 图7 标签管理 图8 全部标签的信息 单击标注作业操作列的“标签”,可跳转至标签管理页。 单击操作列的“修改”,即可完成标签的修改。 单击操作列的“删除”,即可删除该标签。
  • 标注文本 标注作业详情页中,展示了此标注作业中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图2 文本分类标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”,完成“未标注”列表的文本标注。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于文本修改 在标注作业详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。 基于标签修改 在标注作业详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。 批量修改:在“全部标签”区域中,单击操作列的编辑图标,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。 批量删除:在“全部标签”区域中,单击操作列的删除图标,在弹出对话框中,可选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”,然后单击“确定”。
  • 同步新数据 ModelArts会自动将数据集中新增的数据同步至标注作业,包含数据及当前标注作业支持的标注信息。 为了快速获取数据集中最新数据,可在标注作业详情页的“未标注”页签中,单击“同步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。
  • 参数说明 表1 数据清洗-PCC算子参数说明 参数名 是否必选 默认值 参数说明 prototype_sample_path 是 None 数据清洗正样例目录。目录应存放正样例图片文件,算法将这些图片为正样例,对输入中的数据进行过滤,即保留与“prototype_sample_path”目录下图片相似度高的数据。 请输入一个真实存在的OBS目录,该目录下已包含提供的正样例图片,且以obs://开头。如:obs://obs_bucket_name/folder_name。 criticism_sample_path 否 None 数据清洗负样例目录。目录应存放负样例图片文件,算法将这些图片为负样例,对算法输入中的数据进行过滤, 即保留与“criticism_sample_path”目录下图片相似度差距较大的数据。 建议该参数和“prototype_sample_path”配合使用,可以提高数据清洗的准确性。 请输入一个真实存在的OBS目录,且以obs://开头。如:obs://obs_bucket_name/folder_name。 n_clusters 否 auto 数据样本的种类数,默认值auto。您可以输入小于样本总数的整数或auto。auto表示使用正样本目录的图片个数作为数据样本的种类数。 simlarity_threshold 否 0.9 相似度阈值。两张图片相似程度超过阈值时,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。 embedding_distance 否 0.2 样本特征间距。两张图片样本特征间距小于设定值,判定为相似图片,反之按非相似图片处理。输入取值范围为0~1。 do_validation 否 True 是否进行数据校验,可填True或者False。表示数据清洗前需要进行数据校验,否则只进行数据清洗。
共100000条