华为云用户手册

  • 操作步骤 在“执行步骤”页签,单击数据导入下的“执行”。进入“导入”页面,确认页面信息后单击“确认”,允许推荐系统读取您OBS中存储的特征数据,生成画像和宽表。 确认完成单击“执行”,待状态为“已完成”时,生成推荐系统内部通用的画像和宽表数据。 执行完成在页面下方会生成数据相关报告。 “数据导入报告”,显示数据“类型”、“总条目数”、“合法条目数”、“非法条目数”、“重复度”和“合法率”信息。 类型包括生成的用户、物品、行为数据。您可以通过单击左侧的查看具体报告信息。 “名称”项显示具体参数的名称。 “条目数”显示各种类型数据的具体数量。 图1 查看报告 如果导入错误,会生成“数据导入错误报告”,显示数据“类型”、“数量”和“原因”,方便您定位问题原因。 (可选)如果用户更新了数据源,可以重新导入数据。 单击“数据导入报告”后的“执行”,重新进行数据导入。 图2 重新导入数据 表1 参数解释 参数 说明 导入画像 选择是否导入画像。 画像分为用户画像和物品画像, 分别用于存储客户输入的用户特征, 物品特征, 如果同一用户或物品有多条记录, 将会去重。 导入宽表 选择是否导入宽表。 宽表为推荐系统内部格式, 以行为数据为主, 将行为数据中涉及到的用户数据和物品数据整合成一条数据。 保留已有宽表 选择对已有宽表是否保留。目前支持覆盖、是、否。 开启调度 开启调度,可按照您所设置的时间周期性的提交任务。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。可在此下拉框中勾选具体的时间点。 “时间间隔(小时)”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 设置完成后,单击“确定”,重新导入数据。
  • 基于UCB算法的推荐 基于UCB算法的推荐综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。 表22 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 最小行为次数 在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。 30 折中参数 令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。 0.5 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表23 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表24 输出数据 名称 类型 描述 UCB_REC_OFFLINE_CANDIDATES CANDIDATES_SET UCB算法生成的候选集。
  • 基于属性匹配的召回策略 基于属性匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。 表21 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件中包含了离线数据中用户、物品的所有特征字段及对应数据类型,并且特征类型要始终保持一致。全局特征信息文件示例请参考全局特征信息文件。 - 匹配类型 画像匹配类型,包括: 用户匹配物品 物品匹配用户 用户自匹配 物品自匹配 用户匹配物品 匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的别名、根据全局特征信息文件匹配用户特征名和物品特征名,设置权重。 - 推荐个数 推荐给用户的物品最大个数。 10 行数 该值越大筛选相似项条件越严格。 5 条数 该值越小筛选相似项条件越严格。 4 用户画像存储 该数据来源于基于用户数据更新用户画像更新后的用户画像数据或者初始用户画像-物品画像-标准宽表生成的用户画像。 - 物品画像存储 该数据来源于基于物品数据更新物品画像更新后的物品画像数据或者初始用户画像-物品画像-标准宽表生成的物品画像。 - 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100
  • 业务规则-基于历史行为记忆生成候选集 业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。 表16 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为类型 默认物品曝光,配置参数请参见表1中说明。 物品曝光;1次 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表17 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表18 输出数据 名称 类型 描述 CUSTOMRULE_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET CustomRule生成的用户-物品列表候选集。
  • 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表排序后作为候选集,以供在线服务调用。 表19 参数说明 参数名称 说明 策略名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。默认召回策略的名称。 OBS地址 用户可从此OBS地址中选择自定义物品列表。 输入数据 数据格式(.csv文件): itemId1,score1 itemId2,score2 itemId为物品id,score为物品分数。score不是必选,如果不选则算法默认给物品分配分数。算法将物品列表根据分数排序后作为候选集 用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。 表20 输出数据 名称 类型 描述 MANUALRULE_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET 人工编辑候选集。 例如,127,1
  • 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。 表13 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。 10 最大迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。 10 正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。 0.01 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表14 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表15 输出数据 名称 类型 描述 ALSCF_REC_OFFLINE_UIREC_CANDIDATES CANDIDATES_SET AlsCF算法生成的用户-物品列表候选集。
  • 基于用户的协同过滤推荐 采用经典算法基于用户的协同过滤(UserCF)进行召回。 表10 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 行为时间跨度(天) 指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 30天 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重项包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 用户最近邻域数 在UserCF算法中使用,指定某个用户的若干个最近邻用户,构成该用户近邻集合。 50 相似性度量方式 请参见表7中说明。 基于余弦夹角的相似性计算 行数 用于筛选用户最近邻域的条件组合参数。该值越大,筛选条件越严格。 5 条数 用于筛选用户最近邻域的条件组合参数。该值越小,筛选条件越严格。 4 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表11 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表12 输出数据 名称 类型 描述 USERCF_REC_OFFLINE_CANDIDATES CANDIDATES_SET UserCF算法生成的用户-物品列表候选集。
  • 创建召回策略 在“创建召回策略”页面,您可以对目标数据选择不同策略进行离线计算,得到合适的候选集。 创建召回策略操作步骤如下: 在“离线作业”下,单击“召回策略”页签,单击上方“创建”,进入“创建召回策略”页面。 在“创建召回策略”页面,填写召回策略“名称”、“场景”和“描述”。 召回策略名称:请以“Retrieval-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 设置计算引擎和信息,指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。 单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略。具体策略参数说明请单击上方策略名称查看。 图2 添加召回策略 (可选)在目标召回策略右侧,单击“查看输入输出”,可以查看输入数据和输出数据。 (可选)在目标召回策略右侧,单击“设置参数”,可以对所选策略进行参数设置。 (可选)在目标召回策略右侧,单击“删除”,可以删除该策略。 策略设置完成后,单击“确定”。作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等,请您耐心等待。 您可以前往召回策略列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 基于综合行为热度推荐 基于综合行为热度推荐与基于特定行为热度推荐的召回原理大体相同,不同点是用统计几种行为的加权热度代替了特定行为热度。 表4 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 扩展功能 组合作业的资源选择数据源类型为“通用格式”时,会出现扩展功能选项。 创建“基于综合行为热度推荐”的召回策略时,当开启扩展功能,数据源类型仅支持通用格式。 该功能表名是否使用分组推荐功能,根据全局特征信息文件勾选的用户特征或物品特征进行分组。 扩展功能开启: 扩展功能关闭: 默认关闭 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:初始单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据 行为权重 当用户行为信息中存在多种行为类型时,可通过指定行为的权重,来统一量化行为类型对应的评分。 用户行为权重包含: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读 您可以单击“增加行为权重”,新增一个行为权重。通过和来自定义权重大小。 单击可以删除对应行的行为权重。 物品曝光 1.0 全局特征信息文件 开启扩展功能时,此配置项生效。其中“数据源类型”您可以选择“用户特征”或者“物品特征”进行设置。 全局特征信息文件:单击选择该文件的OBS存储路径,当涉及更新时,单击更新全局特征信息文件,并重新设置依赖此文件的配置项。 用户特征:从下拉选项中勾选全局特征信息文件中提取的用户特征用于进行分组推荐。 物品特征:从下拉选项中勾选全局特征信息文件中提取的物品特征用于进行分组推荐。 - 行为次数统计方法 统计物品记录数的方式。 pv:page view,即页面浏览量或点击量。 uv:unique visitor,即同一个访客只记录一条数据。 默认pv 排序算法类型 物品热度是否随着时间衰减。 不衰减:normal。 衰减:time。 不衰减 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表5 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表6 输出数据 名称 类型 描述 WEIGHT_BEHAVIORS_REC_OFFLINE_CANDIDATES CANDIDATES_SET 综合行为热度推荐算法生成的候选集。
  • 基于特定行为热度推荐 基于特定行为热度推荐通过统计用户操作行为表中物品发生某行为的次数,按照次数从高到低返回物品列表。比如可以统计物品被购买的次数,而返回被购买次数最高的若干个物品。 表1 参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认召回策略的名称 数据源 数据源类型有初始格式和通用格式2种可选。 初始格式 用户操作行为表:单击选择OBS中存储的用户操作行为表。当选择数据格式为csv时,根据情况单击设置数据参数。 通用格式 通用格式数据:特征工程“初始用户画像-物品画像-标准宽表生成”算子生成的用户推荐系统的数据。从用户特征表、物品特征表以及用户行为表中提取用户、物品特征和用户行为,并生成json数据,即内部通用格式。 默认选择初始格式 时间选择 时间选择包括数据时间和行为时间跨度。 数据时间:用于匹配在起始时间和终止时间内的行为数据。 行为时间跨度:指定历史行为时间段,选取数据中最靠后的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 默认选择数据时间的当月所有数据 行为类型 在特定行为热度策略中使用,选择一种行为类型后基于该种行为热度进行推荐。 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 物品曝光 行为次数统计方法 统计物品记录数的方式。 pv:page view,即页面浏览量或点击量。 uv:unique visitor,即同一个访客只记录一条数据。 默认pv 排序算法类型 物品热度是否随着时间衰减。 不衰减:normal。 衰减:time。 不衰减 最大推荐结果数 最多生成多少个推荐结果。 该参数会运用在“输出数据”的推荐候选集上。 100 表2 输入数据 数据 是否必须 描述 USER_BEHAVIOR 是 用户操作行为表。 表3 输出数据 名称 类型 描述 HOT_REC_OFFLINE_CANDIDATES CANDIDATES_SET 特定行为热度推荐算法生成的候选集。
  • 效果评估 创建效果评估可以对线上服务设置指标,查看推荐效果的反馈,可以根据系统提供的指标添加。 表1 效果评估参数说明 参数名称 说明 名称 自定义名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该效果评估作业的描述信息。 开启调度 默认开启调度。开启调度后,默认每天凌晨00:05开始执行。您也可以关闭调度手动执行效果评估作业。 指标类型 推荐服务效果评估指标,通过指标后的下拉框选择系统自置指标或自定义指标。您可以单击添加指标,单击该指标后的删除指标。 点击PV 推荐点击PV率 自定义指标 自定义指标包含参数设置和指标设置两部分。 参数设置 参数别名:用户指定参数别名应用于指标公式。 行为类型:选择需要进行评估的行为类型,如物品曝光。 阈值:阈值是用来衡量用户行为有效性的标准, 当数据源的actionMeasure的值大于阈值时, 当前用户行为有效。 去重:您可以单击勾选,根据用户对行为记录去重。 指标设置 指标名称:请您定义评估的指标名称。 指标公式:用户指定自定义指标公式,如:A/(A+B),参数A、B代表自定义参数的参数别名。只支持+、-、*、/。 父主题: 算法介绍及参数说明
  • 排序样本预处理 将内部通用格式数据处理成排序策略所要求的特定格式数据,同时进行离散化,数据编码等特征工程处理。 表2 排序样本预处理输入参数说明 参数名称 说明 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、排序算法、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 通用格式数据源根路径 通用格式生成所在的根目录,即用户提交初始初始用户画像-物品画像-标准宽表生成或基于行为数据的用户画像更新时所提供的结果保存路径。 行为起止日期 用户行为数据时间范围,可只有起始时间、结束时间或为空。 待提取用户特征 从全局特征信息文件中提取输入的用户特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加用户特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据age进行离散,设置年龄最小值为1,最大值为3,区间名称为“幼儿”;单击”添加区间,最小值为4,最大值为12,区间名称为“少儿”,则按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 待提取物品特征 从全局特征信息文件中提取输入的物品特征进行排序模型训练。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击“”,增加物品特征。当“特征值类型”为“单值数值型”时,可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。 “等频离散”:根据业务需求限定数值“最小值”、“最大值”和“频率”。例如,根据weight进行等频离散,设置weight最小值为5,最大值为200,离散频率为200。那么等频离散会按照weight值的大小进行排序之后,以200个数值为一个区间进行离散。 “用户自定义离散”:根据业务需求限定数值“最小值”、“最大值”和“区间名称”。例如,根据order_price进行离散,设置价格最小值为1,最大值为156,区间名称为“低价区”;单击“”添加区间,最小值为157,最大值为500,区间名称为“中高价位区”,那么会按照用户自定义的区间进行离散。 “不离散”:(默认)不做归一化,不对数据做处理。归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 正反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加正反馈行为类型。您可以通过和来自定义权重。 负反馈行为类型 用户自定义。行为类型来源于通用格式数据源中“behavior”字段中“actiontype”的值。单击“”,增加负反馈行为类型。您可以通过和来自定义权重。 算子类型 排序数据处理算子类型。每一种排序算法都需要进行特定的数据处理,需要根据使用的排序算法来选择排序数据处理类型。LR、FM、FFM、DEEPFM、PIN这五种算法的数据处理互相通用。 训练集测试集划分方式 按时间或者比例来划分训练集测试集。 “TIME” 训练数据时间:训练数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 测试数据时间:测试数据起始时间和终止时间,该起始时间和终止时间不得超过行为数据的时间范围。 “RATE” 训练数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比:生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。 结果保存路径 单击选择所有输出数据在OBS的保存根路径,会在这个根路径下自动创建feature_map、features_info_online_use、fields_feature_size、test_data、train_data五个文件夹,分别保存特征映射、在线所需特征信息、域特征数量、测试集、训练集这五个文件。
  • 创建特征工程 创建特征工程操作步骤如下: 在“离线作业”下,单击“特征工程”页签,单击上方“创建”,进入“创建特征工程”页面。 在“创建特征工程”页面,填写特征工程“名称”、“场景”和“描述”。 特征工程名称:请以“ETL-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 设置计算引擎信息,指定“服务名”、“集群名称”、“任务配置地址”、“资源规格”等信息。 单击“添加特征工程”,根据业务需要在下拉框中选择一个合适的策略。初始用户画像-物品画像-标准宽表生成和排序样本预处理策略参数说明请单击策略名称进行查看。 (可选)在目标策略右侧,单击“删除”,可以删除该策略。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“确定”。作业一般需要运行一段时间,根据您的数据量和资源不同,将耗时几分钟到几十分钟不等。 您可以前往特征工程列表,查看作业的基本情况。在作业列表中,刚创建的作业“状态”为“计算中”,当作业“状态”变为“计算成功”时,表示作业运行结束,可以将经过处理的数据应用于离线作业。当作业“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 初始用户画像-物品画像-标准宽表生成 初始用户画像-物品画像-标准宽表生成,是将初始格式数据(离线数据)处理成用户画像、物品画像以及内部通用格式数据。 表1 初始用户画像-物品画像-标准宽表生成参数说明 参数名称 说明 数据源 数据在OBS的存放路径。包括用户属性表、物品属性表、用户操作行为表。 全局特征信息文件 用户在使用特征工程之前,需要提供一份全局的特征信息文件,后续的特征工程、在线模块都会用到该文件。 文件数据信息请参见全局特征信息文件。 当上传的数据中的特征有变化时,用户需要同步更新该文件。该文件为JSON格式,包含特征名、特征大类、特征值类型。 保留已有宽表 对结果保存路径中已有宽表数据的保留方式: 否,不保留任何已有的数据。 是,保留全部已有的数据。 覆盖,将相同日期下的数据覆盖掉,保留不同日期下的数据。 结果保存路径 行为-用户-物品(通用格式)的保存路径。 说明: 使用初始用户画像-物品画像-标准宽表生成的数据时,其路径具体到文件夹即可。 结果存储平台 存储类型有用户画像表和物品画像表两种。 用户画像表:用户自定义CloudTable集群名称和表名,用于存储生成的用户数据。 物品画像表:用户自定义CloudTable集群名称和表名,用于存储生成的物品数据。 设置数据版本:您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。
  • 行为数据 表3 行为数据字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 itemType String 物品的类型。 是 itemId String 对应行为发生的对象的值。如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型,包括正向行为和负向行为。下面为预置的行为类型和对应的权重,权重有默认分数,默认分数代表该行为类型的权重,可做修改。同时支持自定义行为类型。 如果当前场景只有用户关注人这一种行为,则此参数表示用户关注的对象是人。 如果当前场景只有用户关注物品这一种行为,则此参数表示用户关注的对象是物品。 说明: 自定义行为类型,行为名称需要符合以下要求,由数字、字母、下划线组成,长度为4-32。 自定义行为类型接入系统后,初始默认为正向行为,分数为0.5,后续可通过人工复核进行修改。 正向行为: click :点击 ,默认分数0.3 collect:收藏,默认分数0.5 search_click:点击搜索,默认分数0.4 comment:评论,默认分数0.2 share:分享,默认分数0.5 like:点赞,默认分数0.8 consume:消费,默认分数1 use:观看视频/听音乐/阅读,默认分数 0.6 download:下载,默认分数0.6 tip:打赏,默认分数1 subscribe:关注,默认分数0.7 负向行为: view:曝光,默认分数0.1 dislike:点衰/踩,默认分数0.8 uncollect:取消收藏,默认分数0.4 是 actionMeasure Int 本次行为的度量,取值为正整数1-10。建议用户根据实际情况进行换算,如总视频15秒,观看视频duration超过10秒的7分,全看完得10分等。 是 actionTime Long 行为发生的时间,采用UTC标准时间,单位以秒计。 是 actionLocation Json 行为发生的位置,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 sceneId String 推荐场景 ID,用于场景维度的区分。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 物品数据 表2 物品数据字段描述 字段名 类型 描述 是否必选 itemId String 全局唯一物品ID。 是 itemType String 物品的类型,可用于对推荐结果集的多样性控制。包含: item article video audio image 是 category String 物品的类别,如“课程”、“零食”,可用于类别之间的打散。 否 status Long 物品是否可推荐、是否置顶、是否注销,默认值为0。 0:可推荐 1:不可推荐 2:置顶 -1:注销 否 title String 标题,可用于语义分析。 否 score Long 物品的权重,权重越高,被优先推荐的概率越高,取值范围:1-100。如不设置,默认值为1。 否 publishTime Long 发布时间,采用UTC标准时间,单位以秒计。对物品有实时性要求的则必填。 否 expireTime Long 失效时间,采用UTC标准时间,单位以秒计。当前服务器的时间大于该时间时,此物品将不会被推荐。如不设置,代表永不失效。 否 author List[String] 作者,一个作者一个元素,信息流推荐场景建议填写。 否 content String 物品的内容描述信息,例如简介/摘要/正文关键片段,最长支持5000个中英文字符,超过则截断处理。 否 tags List[String] 描述物品的标签,每个标签为独立的一个元素。 否 location Json 物品的地理位置信息,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。 其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 用户数据 表1 用户数据字段描述 字段名 类型 描述 是否必选 userId String 全局唯一用户ID。可输入的字符范围为1~64个字符。只能包含字母、数字、中划线、下划线和特殊字符(: . / # )并且不能以空格开始和结束。 是 age Long 年龄。 否 gender String 性别。取值为: male female unknown 否 location Json 根据业务而设定的用户关注的地理位置信息。如常驻地,精度维度格式:{"lat": latitude, "lon": longitude }。例如:"location": {"lat": 41.12, "lon": -71.34}。 否 tags List[String] 描述用户的标签,每个标签为独立的一个元素。如[“篮球”, “家庭”]。 否 interest_tags List[String] 兴趣标签,由系统自动更新,默认保留字段。 否 extend Json 扩展字段,由用户指定扩展字段的key和value。其中: key,您可以按照业务需求自行命名。无需按照示例以“extend_”开头,key不能为中文。 value,支持long/float/String/strArray/location格式的数据。 否
  • 流式训练 流式训练接入用户行为数据,进行在线训练,以分钟级更新在线服务依赖的排序模型,减少排序模型的效果衰减。 前提条件 已存在运行成功的排序策略。建议“优化器类型”选择“ftrl”。 已存在运行成功的在线服务。该在线服务“排序方式”为“点击率预估”并且“模型文件路径”为1排序策略生成的模型存储路径。 流式训练仅支持2019年12月4日0点之后创建的排序策略和在线服务。 流式训练使用到的排序策略不支持“核函数特征交互神经网络-PIN”算法。 建议您定期“重新执行”条件1对应的离线排序任务。重新执行排序策略后,在线服务和流式训练作业将自动同步新产生的模型,无需重新配置或重新执行在线服务和流式训练作业。 在线服务可以减少排序模型的效果衰减,但仍需定期重新执行离线任务。 表5 流式训练参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认流式训练。 数据源 服务名:添加已经进行资源绑定的DIS资源。 输入流位置:行为数据流的输入配置。将实时近线任务需要的实时物品日志数据添加到输入流指定的DIS通道中,推荐系统通过读取该数据进行近线计算。 通道名称:DIS的数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 输出流位置:行为数据流处理后的输出配置。选择对应的DIS通道名称进行存放。输出流存放的数据属于流式训练作业的中间数据,用户无需获取或发送数据到输出流绑定的数据通道,只需确保该通道仅供本作业作为输出流使用。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 算子参数 在线服务名:使用的在线服务的名称。该在线服务需满足前提条件的要求。 流程名:在线服务对应的在线流程名称。 异常数据输出路径:单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 训练设置 计算节点规格:您可以根据业务需求选择节点规格,“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 模型更新间隔:模型更新时间间隔,更新模型文件。 默认“8核|16GiB” 时间间隔10min 优化策略相关参数 优化器类型:ftrl。适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 -
  • 基于用户数据更新用户画像 基于用户数据更新候选集可以持续更新用户画像,更新频率可达秒级。以DIS中的实时用户数据为数据源,实时捕捉用户数据近线,持续更新或添加用户画像数据,使用户画像处于最新状态。 表3 基于用户数据更新用户画像参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于用户数据更新用户画像。 数据源 服务名:DIS。将实时近线任务需要的实时用户日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 用户画像存储 指定存储用户画像的存储平台信息。 服务名:默认CloudTable,用于存储更新后的用户画像。 集群名称:指定对应的集群名称。 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 -
  • 基于物品数据更新物品画像 基于物品数据更新物品画像可持续更新物品画像,更新频率可达秒级。以DIS中的实时物品日志为数据源,持续更新或添加物品画像数据,使物品画像处于最新的状态。 表4 基于物品数据更新物品画像参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于物品数据更新物品画像。 数据源 服务名:DIS。将实时近线任务需要的实时物品日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10s。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 候选集 是否维护维新入库物品候选集。 时间特征名称:特征值为10位时间戳的特征名称。 候选集最大长度:维护的候选集的最大长度。 保留天数:保留时间为最近N天的候选集。 false 物品画像存储 指定存储物品画像的存储平台信息: 服务名:默认CloudTable,用于存储更新后的物品画像。 集群名称:指定对应的集群名称。 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 -
  • 基于用户的标签搜索候选集 基于用户的标签搜索候选集可以持续为用户召回新的候选集,召回频率可达秒级。以DIS中的实时行为日志为数据源,分析用户喜好,并以此为依据为用户召回候选集。此任务包含两种召回方式: 根据兴趣标签召回候选集 根据实时标签召回候选集 表2 基于用户的兴趣标签搜索候选集参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于用户的标签搜索候选集。 数据源 服务名:DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。 服务名默认DIS。 通道名无。 起始位置默认为latest。 行为类型 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 默认选取所有行为。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10 过滤历史记录 生成的候选集中是否过滤历史记录,如需要过滤历史记录,则开启此项。 默认关闭。 候选集的排序策略 生成候选集的排列规则,其排列顺序包括: 随机排序:不对候选集排序。 热度排序:根据物品属性表里的物品热度排序,由基于行为数据的用户画像更新生成,热度越大排序越靠前。 时间排序:根据时间对候选集进行排序。时间排序需要指定特征名称和推荐天数。 特征名称:值为时间戳(10位)的特征的名称,任务会根据此特征对候选集进行排序。 推荐天数:推荐数据的时间段,该时间段从当前开始往前推N天,默认15天。 默认热度排序。 候选集最大长度 生成候选集的最大长度,每次计算更新的候选集中的个数不会超过最大值。 默认50。 候选集的召回策略 召回候选集的策略。 兴趣标签召回候选集:根据用户画像的兴趣标签召回候选集。 实时标签召回候选集:根据用户实时操作的物品的标签召回候选集。 默认兴趣标签召回候选集。 兴趣宽度 生成候选集中的兴趣宽度,值越小候选集中的类型越少。 说明: 选择兴趣宽度数量对应的,权重值最高的兴趣标签个数进行检索,得到与标签匹配的物品候选集。 默认3。 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 自定义搜索 改变默认搜索条件,按照所选自定义搜索规则进行搜索。自定义搜索的内容来自于全局特征信息文件。您可以单击添加自定义搜索,在下拉选项中选择用户的兴趣标签,单击转换为另外的标签体系进行召回。 说明: 存在不同标签体系时可使用此功能,自定义搜索条件。一般情况下不建议使用。 - 用户画像存储 指定存储用户画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。 物品画像存储 指定存储物品画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。 过滤存储 指定存储过滤集合的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及 候选集存储 指定存储候选集的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。 不涉及。
  • 基于行为数据的用户画像更新 基于行为数据的用户画像更新可以对用户画像进行持续更新,更新频率可达秒级。以DIS中的实时行为日志为数据源,从中分析出用户画像更新信息,并实时更新用户画像,使用户画像随着用户行为的发生而不断变化。 通过此任务可以更新的用户画像内容有:用户标签等动态信息,以及用户年龄、位置、联系方式等上下文信息。 表1 基于行为数据的用户画像更新参数说明 参数名称 说明 默认值 策略别名 策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。 默认基于行为数据的用户画像更新。 服务名 DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。 DIS。 通道名称 数据通道名称,不同类型的数据需要创建不同的通道。 无。 起始位置 读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从通道中现存最旧的数据开始读取。 默认为latest。 行为类型 用户行为包含如下几种类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 默认选取所有行为。 窗口间隔(秒) 近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。 10 结果保存路径 根据行为日志,及cloudtable中已存在的用户画像和物品画像实时构造出样本通用数据,以供其他功能使用。 - 更新上下文 用户操作行为表中的“context ”字段代表动作发生的上下文信息。更新上下文就是将这些信息写入到Cloudtable中进行实时的更新。 默认关闭。 是否更新物品的热度值 根据行为日志,计算物品的热度值。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集按何种顺序排列,如要选择根据热度排序,则需要打开该功能。 默认关闭。 是否保存历史记录 根据行为日志,统计用户的历史记录。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集中过滤掉用户的历史记录依赖于此项,保存了历史记录才可使用。 默认关闭。 兴趣标签衰减参数 兴趣标签的衰减参数,数值越小,衰减能力越强。数值越大,衰减能力越弱。如果值为0,则代表不衰减。 0.99 兴趣标签维护长度 各标签体系下,兴趣标签的最大长度。 20 全局特征信息文件 用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件。 - 异常数据输出路径 单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。 - 用户画像存储 该数据来源于基于用户数据更新用户画像更新后的用户画像数据。服务名默认为绑定的CloudTable资源信息。指定集群名称和表名用于存储更新后的用户画像。 不涉及。 物品画像存储 该数据来源于基于物品数据更新物品画像更新后的物品画像数据。服务名默认为绑定的CloudTable资源信息。 不涉及。 过滤存储 过滤出用户发生过某行为的物品,并保存在此表中。例如,过滤出用户看过的物品,并存储在此表中。指定集群名称和表名用于存储更新后的用户画像。 不涉及。
  • 实时用户日志示例 { "userId":"user123", "BASICINFO":{ "age":15, "gender":"male", "salary":31693.84172, "hobbies":[ "体育", "美术", "音乐", "格斗", "书法" ] }, "TAGS":{ "artificialLabel":{ "tag1":0.84, "tag2":0.22, "tag3":0.88 }, "keywordLabel":{ "tag4":0.22, "tag5":0.99 } }, "CONTEXT":{ "provinceId":"3853", "cityId":"3868", "districtId":"3873" } }
  • 实时物品日志 实时物品日志用于在实时流中对物品画像表进行写入。 表3 物品实时日志字段描述 字段名 类型 描述 是否必选 itemId String 全局唯一物品ID。 是 BASICINFO Json 物品基本属性值。其中字段的值只能是数值型,字符串或字符串数组。 否 TAGS Json 物品标签。其中字段的值只能是Map类型。 可传入不同类型的标签信息(如人工标签,关键词标签等)。 说明: 如果此字段为空,则RES无法根据行为计算用户的兴趣标签。 否 表4 物品实时日志示例表 itemId BASICINFO TAGS item123 weight brand price artificialLabel keywordLabel 12 "male" 333 {"tag1":0.84,"tag2":0.22,"tag3":0.88} {"tag4":0.22,"tag5":0.99}
  • 实时行为日志 实时行为日志的作用包括: 更新用户的兴趣标签。 记录所选行为类型的历史记录。 更新用户的上下文信息。 召回候选集。 表1 实时行为日志字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 objectType String 发生行为对象的类型, item是用户和商品本身发生的行为。 是 actionObject String 对应行为发生的对象的值,如果是和商品发生关系:则是商品的id(itemId)的值。 是 actionType String 行为类型: 物品曝光 用户点击物品 用户收藏了某个物品 用户取消收藏某个物品 用户点击搜索结果中的物品 用户对物品的评论 分享 点赞 点衰 评分 消费 观看视频/听音乐/阅读 是 actionMeasure String 发生行为的度量,金额,评分,次数(整数)等。 默认值: 评分和观看视频/听音乐/阅读可由用户根据实际情况自行定义,如观看两分钟,值为 “1.5”,观看5分钟,值为“1.8”。 其余行为的默认值为1.0。 是 actionContent String 发生行为为评论时,需要记录评论内容。 行为为搜索时,需要记录搜索的关键字。 否 actionDateTime String 行为发生的时间,采用UTC标准时间,单位以秒计。 否 actionLocation String 行为发生的位置,精度维度格式:[latitude, longitude]。 否 context Json 动作发生的上下文信息,内容为json对象,也可作为行为表的扩展字段。例如,用户当前的设备id,ip地址等信息。 否 subSite String 行为发生的位置ID,比如,在首页推荐里面点击,在详情页里面浏览。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于推荐效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 实时用户日志 实时用户日志用于在实时流中对用户画像表进行写入。 表2 用户实时日志字段描述 字段名 类型 描述 是否必选 userId String 全局唯一用户ID。 是 BASICINFO Json 用户基本属性值。其中字段的值只能是数值型,字符串或字符串数组。 否 TAGS Json 用户的兴趣标签。其中字段的值只能是Map类型。 可传入不同类型的标签信息(如人工标签,关键词标签等)。 此标签体系需与物品标签体系相同。如果无历史兴趣标签,则无需传入此字段。推荐系统将会根据特定行为匹配的标签进行计算并完成更新。 说明: 传入TAGS字段会直接覆盖原程序中已计算出的兴趣标签权重。 否 CONTEXT Json 用户上下文信息。其中字段的值只能是数值型,字符串或字符串数组。 否
  • 实时物品日志示例 { "itemId":"item123", "BASICINFO":{ "weight":12, "brand":"male", "price":333 }, "TAGS":{ "artificialLabel":{ "tag1":0.84, "tag2":0.22, "tag3":0.88 }, "keywordLabel":{ "tag4":0.22, "tag5":0.99 } } }
  • 排序策略-离线特征工程 表1 特征工程参数说明 参数名称 说明 名称 自定义离线特征工程名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于特征工程的描述信息。 待提取用户特征 排序模型需要经特征工程处理后的数据, 选择排序模型需要的用户特征, 未选择的用户特征将不会被处理,即排序模块将忽略这些特征。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击,增加用户特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据age进行等距离散,设置年龄最小值为1,最大值为100,离散距离为10。等距离散会按照age将1-10岁,11-20岁等作为一个区间进行离散。 “归一化”:归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 “用户自定义离散”:根据业务需求限定“离散点”。例如,根据age进行离散,设置年龄离散点分别为3、9、15即年龄会按照0-3、3-9、9-15进行散;单击添加离散点。 “不离散”:(默认)不做归一化,不对数据做处理。 待提取物品特征 排序模型需要经特征工程处理后的数据, 选择排序模型需要的物品特征,未选择的物品特征将不会被处理,即排序模块将忽略这些特征。 说明: 离散的区间个数不能超过100个,请您根据业务需求合理分配参数值。 单击,增加物品特征。在下拉选项中勾选特征参数名称并进行配置。当“特征值类型”为“多值枚举型”时,您可以根据需求自定义枚举个数。其他类型可选的参数信息如下: “等距离散”:根据业务需求限定数值“最小值”、“最大值”和“距离”。例如,根据order_price进行等距离散,设置价格最小值为1,最大值为100,离散距离为10。那么等距离散会按照价格将1-10元,11-20元等为一个区间进行离散。 “归一化”:归一化,根据业务需求限定数值“最小值”和“最大值”。例如,根据weight进行归一化,设置weight最小值为50,最大值为200。如果给定的数值x在该区间范围内则采用以下计算公式处理:“x_new = (x - 50) / (200-50)”,不在区间内的则按异常值处理,如x=80时,x_new = 0.2。 “用户自定义离散”:根据业务需求限定“离散点”。例如,根据order_price进行离散,设置价格离散点分别为150、200、250即价格会按照0-150、151-200、201-250进行散;单击添加离散点。 “不离散”:(默认)不做归一化,不对数据做处理。 自定义行为类型 如果开启“自定义行为类型”, 算法则按用户设置的行为类型及权重进行排序预处理任务,否则默认使用数据源中的行为类型及权重进行任务。 “正向行为类型”:设置正向行为的类型及权重值。 “负向行为类型”:设置负向行为的类型及权重值。 行为去重方式 将行为数据中某个用户对某个物品的多条记录进行去重,目前支持按行为权重去重(正向行为且权重越大的优先)和按时间去重(每天、每星期、每个月保留一条数据)。 “权重绝对值”:保留行为权重绝对值最高的一条数据。 “日期”:按照"时间类型", 保留指定区间的一条最新数据。 时间类型 将行为数据中某个用户对某个物品的多条记录进行去重, 只保留每个时间区间内的一条最新数据。您可以根据数据实际情况选择去重的时间周期,可选天、周、月。默认为“天”。 周一是第一天:行为数据按周去重,是否周一是第一天。 如果选择否, 则认为周日是第一天,保留每个时间区间内的一条最新数据。 训练集测试集划分方式 数据划分方式按时间比例或个数比例划分训练集测试集。 “时间比例”:将全部数据的时间跨度按照时间比例划分成两段数据,训练数据为前一段时间中的数据,测试数据为后一段时间的数据,取值TIME。 “个数比例”:个数比例是将全部数据按个数比例随机划分成训练集和测试集传入值。取值RAMDOM。 训练数据占比 生成的结果中,训练集占整个训练集和测试集的比例,默认0.7。 测试数据占比 生成的结果中,训练集占整个训练集和测试集的比例,默认0.3。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “选择时间”:当 调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “具体时间”:选择具体的调度时间。 父主题: 算法介绍及参数说明
  • 注意事项 每张表的表结构和填充的数据必须符合推荐系统的要求,列名和字段类型需要和规范保持一致。 创建数据源之前您需要自己手工创建整理这些表并存储到OBS,推荐数据目前支持JSON格式。 离线数据为初次对接RES的批量数据,供场景中的召回算法和排序算法进行计算。近线数据可实时更新、增加用户和物品表数据,同时实时行为数据,可作为后续近线召回计算,这些近线行为数据也会和离线行为数据进行汇总存储,供离线计算。
  • 数据源管理流程及功能简介 表1 功能介绍 功能 说明 准备离线数据源 请您按照推荐系统要求的数据格式准备用户数据,物品数据,行为数据。 上传离线数据源至OBS 将准备的离线数据源上传至对象存储服务(OBS)用于推荐系统的离线计算。 创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 上传实时数据 RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 修改或删除数据源 对您已经创建的数据源进行修改,对不需要的数据源进行删除。
共100000条