华为云用户手册

  • 逻辑斯蒂回归-LR 逻辑斯蒂回归算法是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。逻辑斯蒂回归算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间,是机器学习领域里常用的二分类算法。单击查看逻辑斯蒂回归详情信息。 表1 逻辑斯蒂回归参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。包括“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 单击选择特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 单击选择特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 因子分解机-FM 因子分解机算法是一种基于矩阵分解的机器学习算法,能够自动进行二阶特征组合、学习特征之间的关系,无需人工经验干预,同时能够解决组合特征稀疏的问题。 表2 因子分解机参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的特征向量的长度。默认10。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。
  • 创建排序策略 创建排序策略操作步骤详情请参见排序策略。 作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。 您可以前往排序策略列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 示例流程 图1 给用户授权RES权限流程 创建用户组并授权 在IAM控制台创建用户组,并授予推荐系统服务只读权限“RES ReadOnlyAccess”。 创建用户并加入用户组 在IAM控制台创建用户,并将其加入1中创建的用户组。 用户登录并验证权限 新创建的用户登录控制台,切换至授权区域,验证权限: 在“服务列表”中选择“推荐系统”,进入RES管理控制台,在左侧导航栏选择“数据源”,在页面右上角单击“创建”,尝试创建一个新的数据源,如果无法进行创建(假设当前权限仅包含RES ReadOnlyAccess),表示“RES ReadOnlyAccess”已生效。 在“服务列表”中选择除RES外的任一服务(假设当前策略仅包含RES ReadOnlyAccess),如果提示权限不足,表示“RES ReadOnlyAccess”已生效。
  • (可选)效果评估 自定义场景创建完成后,页面自动跳转到自定义场景列表页面,您可以单击目标场景名称进入详情页,创建效果评估。 “效果评估”页签下单击,在弹出页面选择填写“名称”和“描述”。 效果评估名称:只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 图8 创建效果评估 配置创建效果评估相关参数,请参见表1。 配置完成后单击“确认”,该作业会出现在效果评估页签下的列表中。鼠标移动至该策略上方,可以对该策略作业进行“编辑”、“查看”、“执行”和“删除”操作。 您可以在自定义详情页面查看“已完成”状态的评估结果图表,方便您查看近期的评估效果。
  • 在线服务 在“在线服务”页面,填写基本信息。您可以根据实际情况填写“名称”、“描述”信息或“开启异常告警”。单击开启异常告警,在下拉选项中选择SMN主题名称。如果您还未有可选的主题,请前往消息通知服务创建主题。 单击“添加在线流程”,并进行命名,您最多可以部署5个在线流程。根据选择的服务类型配置在线流程,包括“召回池”、“过滤”、“排序”等关键信息。具体参数信息参见表1。 图7 创建在线服务 参数配置完成后单击“创建并完成”。作业创建完成后您可以在自定义场景列表页面目标场景的“操作”列单击“执行”,待场景状态为“运行中”时,作业运行完成。
  • 排序策略-离线排序策略 排序策略离线排序策略是用于对召回策略生成的候选集进行二次排序。如果离线使用排序模型,需在排序策略-离线特征工程中创建完成后才可以正常使用排序策略。 各个策略的详细参数设置和输入输出请单击下方链接查看。 Logistic Regression (LR) DeepFM AutoGroup 在“创建自定义场景”页面,进入“排序策略”页签,单击“离线排序策略”,如图5所示。用户可以根据业务需要在“添加排序策略”下拉框中选择一个合适的排序策略。 图5 添加离线排序策略 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 具体策略的参数说明可单击上方策略名称进行查看。
  • 排序策略-近线排序策略 近线排序策略用于对在线实时数据排序。如果使用在线排序模型,需在排序策略-近线特征工程中创建完成后才可以正常使用排序策略。 在“创建自定义场景”页面,进入“排序策略”页签,单击“添加近线排序策略”。 进行在线学习参数配置。 名称:自定义在线排序策略名称。 离线排序策略:从下拉框中选择已经创建完成的排序策略-离线排序策略作业名称。 优化器类型:具体参数解释请参见Logistic Regression (LR)。 图6 添加近线排序策略 创建完成后在单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 参数配置完成后可单击“下一步:在线服务”。
  • 过滤规则 过滤规则是用于配置候选集的过滤方式,使相关内容不进入候选集。 如果您选择的是排序引擎,在配置完基本信息之后进入“过滤规则”页签。 如果您选择的是推荐引擎,在配置完召回策略之后,进入“过滤规则”页签。 “创建自定义场景”页面,进入“过滤规则”页签,单击“添加过滤策略”,如图3所示。策略的详细参数说明请参见过滤规则。 图3 创建过滤规则 表3 过滤规则参数说明 参数 说明 名称 根据业务自定义命名。 描述 根据业务自定义描述。 频次 筛选出每个用户的行为数据中满足要求的数据,使之不进入候选集。 相对时间间隔:与数据源内的行为数据记录最后的一条时间相差天数。 最小次数:某用户对某物品产生某行为的最小次数。 行为类型:指定行为类型。 绝对时间间隔:与当前时间相差天数。 最大次数:某用户对某物品产生某行为的最大次数。 行为过滤逻辑 设置为AND或者OR。AND即为在7天内点赞超过3次且在7天内消费超过3次的物品。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 创建完成后单击“确认”。保存后的策略会展示在下面的列表中。 (可选)在目标策略右侧,可以对所选策略进行“编辑”和“删除”操作。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步:排序策略”。
  • 召回策略 您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。 各个召回策略的详细介绍请参见: 基于综合行为热度推荐 基于物品的协同过滤推荐 基于用户的协同过滤推荐 基于交替最小二乘的矩阵分解推荐 业务规则-基于历史行为记忆生成候选集 业务规则-人工导入 基于特征匹配的召回策略 基于UCB的召回策略 近线召回 基于物品相似度的实时召回 基于用户相似度的实时召回 在“创建自定义场景”页面,进入“召回策略”页签,单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略。本章节以“基于交替最小二乘的矩阵分解推荐”为例进行创建,如图2所示。 图2 召回策略 表2 基于交替最小二乘的矩阵分解推荐参数说明 参数 说明 名称 根据业务自定义命名。 描述 根据业务自定义。例如,这是一个测试策略。 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。 默认为10。 优化正则化系数 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。 设置为默认参数0.01。 最大迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。 默认为10。 最大推荐结果数 最多生成多少个推荐结果。 默认参数100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 创建完成后单击“确认”。保存后的召回策略会展示在下面的列表中。 (可选)在目标召回策略右侧,可以对所选策略进行“编辑”和“删除”操作。 删除操作不可恢复,请您谨慎操作。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步:过滤规则”。
  • 操作步骤 在“执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像和宽表。 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像和宽表数据。 执行完成在页面下方会生成数据相关报告。 “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。 (可选)如果用户更新了数据源,可以重新导入数据。 单击“数据导入报告”后的“执行”,重新进行数据导入。 图2 重新导入数据 表1 参数解释 参数 说明 导入画像 选择是否导入画像。 画像分为用户画像和物品画像, 分别用于存储客户输入的用户特征, 物品特征, 如果同一用户或物品有多条记录, 将会去重。 导入宽表 选择是否导入宽表。 宽表为推荐系统内部格式, 以行为数据为主, 将行为数据中涉及到的用户数据和物品数据整合成一条数据。 保留已有宽表 选择对已有宽表是否保留。目前支持覆盖、是、否。 开启调度 开启调度,可按照您所设置的时间周期性的提交任务。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。 “时间间隔(小时)”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 设置完成后,单击“确定”,重新导入数据。
  • 数据导入介绍 数据导入即读取经过“数据结构”生成的数据,对每条数据进行校验。推荐系统保留字段需校验类型和数据合法性、自定义字段校验类型,输出错误报告。如果数据完全符合要求,会生成推荐系统所需要的宽表和画像数据。 宽表:推荐系统内部格式,以行为数据为主,将行为数据中涉及到的用户数据和物品数据整合成一条数据。 画像:画像分为用户画像和物品画像,分别用于存储用户输入的用户特征和物品特征。如果同一用户或物品有多条记录,将会按照用户ID或者物品ID去重。
  • 基于UCB算法的推荐 基于UCB算法的推荐综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。 表22 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 最小行为次数 在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。 30 折中参数 令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。 0.5 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表23 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表24 输出数据 名称 类型 描述 UCB_REC_OFFLINE_CANDIDATES CANDIDATES_SET UCB算法生成的候选集。
  • 基于属性匹配的召回策略 基于属性匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。 表21 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件中包含了离线数据中用户、物品的所有特征字段及对应数据类型,并且特征类型要始终保持一致。全局特征信息文件示例请参考全局特征信息文件。 - 匹配类型 画像匹配类型,包括: 用户匹配物品 物品匹配用户 用户自匹配 物品自匹配 用户匹配物品 匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的别名、根据全局特征信息文件匹配用户特征名和物品特征名,设置权重。 - 推荐个数 推荐给用户的物品最大个数。 10 行数 该值越大筛选相似项条件越严格。 5 条数 该值越小筛选相似项条件越严格。 4 用户画像存储 该数据来源于基于用户数据更新用户画像更新后的用户画像数据或者初始用户画像-物品画像-标准宽表生成的用户画像。 - 物品画像存储 该数据来源于基于物品数据更新物品画像更新后的物品画像数据或者初始用户画像-物品画像-标准宽表生成的物品画像。 - 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100
  • 业务规则-基于历史行为记忆生成候选集 业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。 表16 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为类型 默认物品曝光,配置参数请参见表1中说明。 物品曝光;1次 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表17 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表18 输出数据 名称 类型 描述 CUSTOMRULE_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET CustomRule生成的用户-物品列表候选集。
  • 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表排序后作为候选集,以供在线服务调用。 表19 参数说明 参数名称 说明 策略名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。默认召回策略的名称。 OBS地址 用户可从此OBS地址中选择自定义物品列表。 输入数据 数据格式(.csv文件): itemId1,score1 itemId2,score2 itemId为物品id,score为物品分数。score不是必选,如果不选则算法默认给物品分配分数。算法将物品列表根据分数排序后作为候选集 用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。 表20 输出数据 名称 类型 描述 MANUALRULE_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET 人工编辑候选集。 例如,127,1
  • 基于用户的协同过滤推荐 采用经典算法基于用户的协同过滤(UserCF)进行召回。 表10 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 用户最近邻域数 在UserCF算法中使用,指定某个用户的若干个最近邻用户,构成该用户近邻集合。 50 相似性度量方式 请参见表7中说明。 基于余弦夹角的相似性计算 行数 用于筛选用户最近邻域的条件组合参数。该值越大,筛选条件越严格。 5 条数 用于筛选用户最近邻域的条件组合参数。该值越小,筛选条件越严格。 4 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表11 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表12 输出数据 名称 类型 描述 USERCF_REC_OFFLINE_CANDIDATES CANDIDATES_SET UserCF算法生成的用户-物品列表候选集。
  • 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。 表13 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。 10 最大迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。 10 正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。 0.01 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表14 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表15 输出数据 名称 类型 描述 ALSCF_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET AlsCF算法生成的用户-物品列表候选集。
  • 基于特定行为热度推荐 基于特定行为热度推荐通过统计用户操作行为表中物品发生某行为的次数,按照次数从高到低返回物品列表。比如可以统计物品被购买的次数,而返回被购买次数最高的若干个物品。 表1 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据 行为类型 在特定行为热度策略中使用,选择一种行为类型后基于该种行为热度进行推荐。 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 物品曝光 行为次数统计方法 统计物品记录数的方式。 pv:page view,即页面浏览量或点击量。 uv:unique visitor,即同一个访客只记录一条数据。 默认pv 排序算法类型 物品热度是否随着时间衰减。 不衰减:normal。 衰减:time。 不衰减 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表2 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表3 输出数据 名称 类型 描述 HOT_REC_OFFLINE_CANDIDATES CANDIDATES_SET 特定行为热度推荐算法生成的候选集。
  • 创建召回策略 在“创建召回策略”页面,您可以对目标数据选择不同策略进行离线计算,得到合适的候选集。 创建召回策略操作步骤如下: 在“离线作业”下,单击“召回策略”页签,单击上方“创建”,进入“创建召回策略”页面。 在“创建召回策略”页面,填写召回策略“名称”、“场景”和“描述”。 召回策略名称:请以“Retrieval-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 设置计算引擎和信息,指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。 单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略。具体策略参数说明请单击上方策略名称查看。 图2 添加召回策略 (可选)在目标召回策略右侧,单击“查看输入输出”,可以查看输入数据和输出数据。 (可选)在目标召回策略右侧,单击“设置参数”,可以对所选策略进行参数设置。 (可选)在目标召回策略右侧,单击“删除”,可以删除该策略。 策略设置完成后,单击“确定”。作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等,请您耐心等待。 您可以前往召回策略列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 基于综合行为热度推荐 基于综合行为热度推荐与基于特定行为热度推荐的召回原理大体相同,不同点是用统计几种行为的加权热度代替了特定行为热度。 表4 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 扩展功能 组合作业的资源选择数据源类型为“通用格式”时,会出现扩展功能选项。 创建“基于综合行为热度推荐”的召回策略时,当开启扩展功能,数据源类型仅支持通用格式。 该功能表名是否使用分组推荐功能,根据全局特征信息文件勾选的用户特征或物品特征进行分组。 扩展功能开启: 扩展功能关闭: 默认关闭 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:初始单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重包含: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 全局特征信息文件 开启扩展功能时,此配置项生效。其中“数据源类型”您可以选择“用户特征”或者“物品特征”进行设置。 全局特征信息文件:单击选择该文件的OBS存储路径,当涉及更新时,单击更新全局特征信息文件,并重新设置依赖此文件的配置项。 用户特征:从下拉选项中勾选全局特征信息文件中提取的用户特征用于进行分组推荐。 物品特征:从下拉选项中勾选全局特征信息文件中提取的物品特征用于进行分组推荐。 - 行为次数统计方法 统计物品记录数的方式。 pv:page view,即页面浏览量或点击量。 uv:unique visitor,即同一个访客只记录一条数据。 默认pv 排序算法类型 物品热度是否随着时间衰减。 不衰减:normal。 衰减:time。 不衰减 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表5 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表6 输出数据 名称 类型 描述 WEIGHT_BEHAVIORS_REC_OFFLINE_CANDIDATES CANDIDATES_SET 综合行为热度推荐算法生成的候选集。
  • 效果评估 创建效果评估可以对线上服务设置指标,查看推荐效果的反馈,可以根据系统提供的指标添加。 表1 效果评估参数说明 参数名称 说明 名称 自定义名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该效果评估作业的描述信息。 开启调度 默认开启调度。开启调度后,默认每天凌晨00:05开始执行。您也可以关闭调度手动执行效果评估作业。 指标类型 推荐服务效果评估指标,通过指标后的下拉框选择系统自置指标或自定义指标。您可以单击添加指标,单击该指标后的删除指标。 点击PV 推荐点击PV率 自定义指标 自定义指标包含参数设置和指标设置两部分。 参数设置 参数别名:用户指定参数别名应用于指标公式。 行为类型:选择需要进行评估的行为类型,如物品曝光。 阈值:阈值是用来衡量用户行为有效性的标准, 当数据源的actionMeasure的值大于阈值时, 当前用户行为有效。 去重:您可以单击勾选,根据用户对行为记录去重。 指标设置 指标名称:请您定义评估的指标名称。 指标公式:用户指定自定义指标公式,如:A/(A+B),参数A、B代表自定义参数的参数别名。只支持+、-、*、/。 父主题: 算法介绍及参数说明
  • 排序样本预处理 将内部通用格式数据处理成排序策略所要求的特定格式数据,同时进行离散化,数据编码等特征工程处理。 表2 排序样本预处理输入参数说明 参数名称 说明 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 通用格式数据源根路径 通用格式生成所在的根目录,即用户提交初始初始用户画像-物品画像-标准宽表生成或基于行为数据的用户画像更新时所提供的结果保存路径。 行为起止日期 用户行为数据时间范围,可只有起始时间、结束时间或为空。 待提取用户特征 从全局特征信息文件中提取输入的用户特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加用户特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据age进行离散,设置年龄最小值为1,最大值为3,区间名称为“幼儿”;单击”添加区间,最小值为4,最大值为12,区间名称为“少儿”,则按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 待提取物品特征 从全局特征信息文件中提取输入的物品特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加物品特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。那么等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据order_price进行离散,设置价格最小值为1,最大值为156,区间名称为“低价区”;单击“”添加区间,最小值为157,最大值为500,区间名称为“中高价位区”,那么会按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 正反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加正反馈行为类型。您可以通过和来自定义权重。 负反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加负反馈行为类型。您可以通过和来自定义权重。 算子类型 排序数据处理算子类型。每一种排序算法都需要进行特定的数据处理,需要根据使用的排序算法来选择排序数据处理类型。LR、FM、FFM、DEEPFM、PIN这五种算法的数据处理互相通用。 训练集测试集划分方式 按时间或者比例来划分训练集测试集。 “TIME” 训练数据时间:训练数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。 结果保存路径 单击选择所有输出数据在OBS的保存根路径,会在这个根路径下自动创建feature_map、features_info_online_use、fields_feature_size、test_data、train_data五个文件夹,分别保存特征映射、在线所需特征信息、域特征数量、测试集、训练集这五个文件。
  • 初始用户画像-物品画像-标准宽表生成 初始用户画像-物品画像-标准宽表生成,是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。 表1 初始用户画像-物品画像-标准宽表生成参数说明 参数名称 说明 数据源 数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 保留已有宽表 对结果保存路径中已有宽表数据的保留方式: 否,不保留任何已有的数据。 是,保留全部已有的数据。 覆盖,将相同日期下的数据覆盖掉,保留不同日期下的数据。 结果保存路径 行为-用户-物品(通用格式)的保存路径。 说明: 使用初始用户画像-物品画像-标准宽表生成的数据时,其路径具体到文件夹即可。 结果存储平台 存储类型有用户画像表和物品画像表两种。 用户画像表:用户自定义CloudTable集群名称和表名,用于存储生成的用户数据。 物品画像表:用户自定义CloudTable集群名称和表名,用于存储生成的物品数据。 设置数据版本:您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。
  • 创建特征工程 创建特征工程操作步骤如下: 在“离线作业”下,单击“特征工程”页签,单击上方“创建”,进入“创建特征工程”页面。 在“创建特征工程”页面,填写特征工程“名称”、“场景”和“描述”。 特征工程名称:请以“ETL-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 设置计算引擎信息,指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。 单击“添加特征工程”,根据业务需要在下拉框中选择一个合适的策略。初始用户画像-物品画像-标准宽表生成和排序样本预处理策略参数说明请单击策略名称进行查看。 (可选)在目标策略右侧,单击“删除”,可以删除该策略。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“确定”。作业一般需要运行一段时间,根据您的数据量和资源不同,将耗时几分钟到几十分钟不等。 您可以前往特征工程列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,可以将经过处理的数据应用于离线作业。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 行为数据 表3 行为数据字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 itemType String 物品的类型。 是 itemId String 对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型,包括正向行为和负向行为。下面为预置的行为类型和对应的权重,权重有默认分数,默认分数代表该行为类型的权重,可做修改。同时支持自定义行为类型。 如果当前场景只有用户关注人这一种行为,则此参数表示用户关注的对象是人。 如果当前场景只有用户关注物品这一种行为,则此参数表示用户关注的对象是物品。 说明: 自定义行为类型,行为名称需要符合以下要求,由数字、字母、下划线组成,长度为4-32。 自定义行为类型接入系统后,初始默认为正向行为,分数为0.5,后续可通过人工复核进行修改。 正向行为: click :点击 ,默认分数0.3 collect:收藏,默认分数0.5 search_click:点击搜索,默认分数0.4 comment:评论,默认分数0.2 share:分享,默认分数0.5 like:点赞,默认分数0.8 consume:消费,默认分数1 use:观看视频/听音乐/阅读,默认分数 0.6 download:下载,默认分数0.6 tip:打赏,默认分数1 subscribe:关注,默认分数0.7 负向行为: view:曝光,默认分数0.1 dislike:点衰/踩,默认分数0.8 uncollect:取消收藏,默认分数0.4 是 actionMeasure Int 本次行为的度量,取值为正整数1-10。建议用户根据实际情况进行换算,如总视频15秒,观看视频duration超过10秒的7分,全看完得10分等。 是 actionTime Long 行为发生的时间,采用UTC标准时间,单位以秒计。 是 actionLocation Json 行为发生的位置,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 sceneId String 推荐场景 ID,用于场景维度的区分。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 用户数据 表1 用户数据字段描述 字段名 类型 描述 是否必选 userId String 全局唯一用户ID。可输入的字符范围为1~64个字符。只能包含字母、数字、中划线、下划线和特殊字符(: . / # )并且不能以空格开始和结束。 是 age Long 年龄。 否 gender String 性别。取值为: male female unknown 否 location Json 根据业务而设定的用户关注的地理位置信息。如常驻地,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 tags List[String] 描述用户的标签,每个标签为独立的一个元素。如[“篮球”, “家庭”]。 否 interest_tags List[String] 兴趣标签,由系统自动更新,默认保留字段。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 物品数据 表2 物品数据字段描述 字段名 类型 描述 是否必选 itemId String 全局唯一物品ID。 是 itemType String 物品的类型,可用于对推荐结果集的多样性控制。包含: item article video audio image 是 category String 物品的类别,如“课程”、“零食”,可用于类别之间的打散。 否 status Long 物品是否可推荐、是否置顶、是否注销,默认值为0。 0:可推荐 1:不可推荐 2:置顶 -1:注销 否 title String 标题,可用于语义分析。 否 score Long 物品的权重,权重越高,被优先推荐的概率越高,取值范围:1-100。如不设置,默认值为1。 否 publishTime Long 发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。 否 expireTime Long 失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 否 author List[String] 作者,一个作者一个元素,信息流推荐场景建议填写。 否 content String 物品的内容描述信息,例如简介/摘要/正文关键片段,最长支持5000个中英文字符,超过则截断处理。 否 tags List[String] 描述物品的标签,每个标签为独立的一个元素。 否 location Json 物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。 其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 流式训练 流式训练接入用户行为数据,进行在线训练,以分钟级更新在线服务依赖的排序模型,减少排序模型的效果衰减。 前提条件 已存在运行成功的排序策略。建议“优化器类型”选择“ftrl”。 已存在运行成功的在线服务。该在线服务“排序方式”为“点击率预估”并且“模型文件路径”为1排序策略生成的模型存储路径。 流式训练仅支持2019年12月4日0点之后创建的排序策略和在线服务。 流式训练使用到的排序策略不支持“核函数特征交互神经网络-PIN”算法。 建议您定期“重新执行”条件1对应的离线排序任务。重新执行排序策略后,在线服务和流式训练作业将自动同步新产生的模型,无需重新配置或重新执行在线服务和流式训练作业。 在线服务可以减少排序模型的效果衰减,但仍需定期重新执行离线任务。 表5 流式训练参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认流式训练。 数据源 服务名:添加已经进行资源绑定的DIS资源。 输入流位置:行为数据流的输入配置。将实时近线任务需要的实时物品日志数据添加到输入流指定的DIS通道中,推荐系统通过读取该数据进行近线计算。 通道名称:DIS的数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 输出流位置:行为数据流处理后的输出配置。选择对应的DIS通道名称进行存放。输出流存放的数据属于流式训练作业的中间数据,用户无需获取或发送数据到输出流绑定的数据通道,只需确保该通道仅供本作业作为输出流使用。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 算子参数 在线服务名:使用的在线服务的名称。该在线服务需满足前提条件的要求。 流程名:在线服务对应的在线流程名称。 异常数据输出路径:单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 训练设置 计算节点规格:您可以根据业务需求选择节点规格,“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 模型更新间隔:模型更新时间间隔,更新模型文件。 默认“8核|16GiB” 时间间隔10min 优化策略相关参数 优化器类型:ftrl。适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 -
  • 基于用户数据更新用户画像 基于用户数据更新候选集可以持续更新用户画像,更新频率可达秒级。以DIS中的实时用户数据为数据源,实时捕捉用户数据近线,持续更新或添加用户画像数据,使用户画像处于最新状态。 表3 基于用户数据更新用户画像参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于用户数据更新用户画像。 数据源 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 用户画像存储 指定存储用户画像的存储平台信息。 服务名:默认CloudTable,用于存储更新后的用户画像。 集群名称:指定对应的集群名称。 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 -
共100000条