华为云用户手册

  • 预览配置 在“预览设置”页面,展示了创建作业的名称、资源信息、召回策略信息、过滤规则和排序规则详细信息。 预览结束后,单击“完成”,组合作业创建完成。作业一般需要运行一段时间,根据您的数据量和资源不同,训练时间将耗时几分钟到几十分钟不等。 您可以前往组合作业列表,查看作业的基本情况。在组合作业列表中,刚创建的离线作业“状态”为“计算中”,当离线作业的“状态”变为“计算成功”时,表示作业运行结束,生成的候选集ID将使用于在线服务,为用户生成推荐列表。当离线作业的“状态”变为“计算失败”时,您可以单击作业的名称,进入详情页面,通过查看日志等手段处理问题。
  • 召回策略 您可以根据业务需要,选择合适的召回策略。召回策略用于配置离线计算逻辑,通过启动离线计算任务进行候选推荐结果集的生成。 各个召回策略的详细参数设置和输入输出请单击下方链接查看。 基于特定行为热度推荐 基于综合行为热度推荐 基于物品的协同过滤推荐 基于用户的协同过滤推荐 基于交替最小二乘的矩阵分解推荐 业务规则-基于历史行为记忆生成候选集 业务规则-人工导入 基于属性匹配的召回策略 配置召回策略操作步骤如下: 在“创建组合作业”页面,配置完资源选择参数之后,进入“召回策略”页签,单击“添加召回策略”,根据业务需要在下拉框中选择一个合适的策略,如图2所示。 图2 召回策略 (可选)在目标召回策略右侧,单击“查看输入输出”,可以查看输入数据和输出数据。 (可选)在目标召回策略右侧,单击“设置参数”,可以对所选策略进行参数设置。 具体策略的参数说明可单击上方策略名称进行查看,策略设置完成后,单击“下一步”。
  • 基本配置 基本配置主要包括设置组合作业的名称和描述。 登录RES管理控制台,在左侧导航栏的“离线作业”下,单击“组合作业”进入组合作业页面。 在“组合作业”页面上方,单击“创建”,进入“创建组合作业”页面。 填写“名称”、“场景”和“描述”,其中带*标志的参数为必填参数。 组合作业名称请以“Standard-”开始,只能由字母、数字、中划线和下划线组成,并且长度小于64个字符。 “场景”信息可选择您在全局配置页面创建的场景。 完成该项配置后,单击“下一步”。
  • 资源选择 您在使用RES时需要选择计算引擎、存储平台和数据源。计算引擎对数据进行计算,存储平台将处理的数据进行存储。其选择的服务资源即为“资源中心”绑定的资源。 在RES管理控制台完成“基本配置”之后,进入“资源选择”页签。 填写组合作业相关配置参数,请参见表1。 表1 创建组合作业参数说明 模块 参数名称 说明 计算引擎 服务名 计算引擎用于推荐系统的离线计算和近线计算。默认DLI。 集群名称 选择“资源中心”绑定的DLI集群名称。 任务配置地址 在创建作业时, 会自动生成一个JSON格式的配置源文件,该文件存储在指定的OBS路径中,计算引擎可以通过读取配置源文件来进行离线计算。 资源名 指定DLI运行作业的资源规格。 可选择“全局配置”添加的计算资源或默认值。 存储平台 服务名称 CloudTable作为存储平台,用于用户推荐在线数据和推荐候选集的存储。此处选择已经完成资源绑定的CloudTable。 集群名称 选择“资源中心”绑定的CloudTable集群名称。 表名 存储的表格名称。 您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”和“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。 数据源 初始格式 选择提前已经存储在OBS上的如下数据源: 用户属性表 物品属性表 用户操作行为表 如上数据表的数据格式规范请参见离线数据源。 OBS上传文件操作详请参见《对象存储服务控制台指南》中的入门章节。 在对应表的“数据源”列中,单击选择数据的OBS存储路径。 在对应表的“数据格式”列中,数据格式可选:csv/json。 当选择数据格式为csv时,在弹框中设置数据参数,具体参数如下: 表头,有或无,根据用户数据格式选取。 分隔符,选择逗号(,)、竖线(|)、制表符(\t)和自定义。 引用字符,单引号(')、双引号(")和自定义。 转义字符,反斜杠(\)和自定义。 在对应表的“操作”列中,单击“清除数据”可以删除对应表的数据源。 通用格式 通用数据由特征工程“初始用户画像-物品画像-标准宽表生成”算子生成。其路径与“初始用户画像-物品画像-标准宽表生成”结果保存路径一致。 说明: 在使用通用格式数据之前,需要先进行特征工程算子计算。 通用格式数据:从用户属性表、物品属性表和用户操作行为表中提取用户、物品特征和用户行为,并生成JSON数据,即内部通用格式。 通用格式时间:用户行为数据时间范围,可只有起始时间、结束时间或为空。 完成该项配置后,单击“下一步”。
  • RES操作流程 本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图1所示。 图1 RES操作流程 表1 使用流程说明 流程 子任务 说明 详细指导 准备资源 开通相关资源 基于您的业务需求,您需要开通RES相关服务,包括: 计算引擎DLI、ModelArts 存储平台CloudTable (可选)数据接入资源DIS 开通相关资源 绑定资源 针对您创建的集群等资源,需要完成绑定,才可以在创建作业时可选择绑定的集群进行计算存储等操作。 绑定资源 创建跨源链接 在使用DLI进行推荐系统的离线和近线计算时,建议创建跨源连接,用于访问CloudTable的数据源,提高读写性能。 创建跨源连接 开启公共终端节点 推荐系统在需要使用CloudTable集群进行数据存储,需开启公共终端节点之后推荐才能正常使用CloudTable集群。 开启公共终端节点 上传数据 准备离线数据源 需要您准备包含用户类数据,物品类数据,行为数据以及推荐候选列表的离线数据源用于推荐系统的离线计算。 离线数据源 准备实时日志数据 RES根据实时发送到DIS上的日志,进行数据计算和处理,更新用户的相关数据。 实时日志 运行推荐策略 创建离线作业 创建离线作业包括进行数据质量检测、创建组合作业、特征工程、召回策略、排序策略、过滤规则等作业。 运行推荐作业 创建在线服务 - 创建在线服务用于部署上线服务、更新模型。配置实时计算的逻辑,包括设置在线流量、组装推荐结果和设置排序策略。根据策略做在线推荐结果融合、过滤、重排以及多流程之间的AB,并返回最终结果。 创建在线服务 获取推荐结果 - 您可以通过在线服务预测结果,也可以通过API接口获取最终的推荐结果。 获取推荐结果 (可选)效果评估 - 创建效果评估可以对线上服务设置指标,查看推荐结果的具体衡量指标。 效果评估 父主题: 用户指南(旧版)
  • 服务总览信息 您可以在RES管理控制台的总览页查看服务的最新动态、了解作业状态、快捷创建服务。 登录RES管理控制台,单击左侧导航栏上的“总览”,进入总览页面。 总览界面包括“最新动态”、“视频教程”和“常用链接”,如图1所示。其中,在最新动态可查看所创建“离线作业”、“近线作业”和“在线服务”的名称、状态和创建时间。 图1 总览 单击作业或服务名称,进入该详情页面,可以查看资源信息、策略信息和日志信息。您也可以通过页面快速创建作业或服务。单击“创建在线服务”,快速进入创建在线服务页面。 父主题: 用户指南(旧版)
  • AutoGroup AutoGroup,使用自动分组技术探索高阶特征交互组合,更深层次地挖掘出多个特征间联系,增强模型排序效果。 表3 AutoGroup参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大交互阶数 算法探索的最大的特征交互阶数。例如,当设定最大交互阶数为4时,算法会探索2阶、3阶、4阶的特征交互组合。默认3。 各阶隐向量长度 各阶特征交互使用的隐向量长度,数量需对应最大交互阶数。默认10,60,80。 哈希长度 每阶特征交互所选择的group数量,数量需对应最大交互阶数。默认10,60,80。 特征交互层惩罚项系数 特征交互层输出值的惩罚项系数,用来防止过拟合。默认0.0001,0.0001,0.0001。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 结构部分优化器 详细参数请参见优化器类型。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 隐向量层L2正则化系数 隐向量层使用的L2正则化系数,作用如“L2正则项系数”描述。默认0.001。 wide部分L2正则化系数 wide层使用的L2正则化系数,作用如“L2正则项系数”描述。默认0.001。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。 融合多值特征 将多值特征的多个embedding融合成一个embedding。 融合线性部分 是否使用模型架构中的线性部分。 固定哈希结构 是否固定结构参数。默认值为“否”,非特殊情况建议使用默认值。
  • DeepFM DeepFM,结合了FM和深度神经网络对于特征表达的学习,同时学习高阶和低阶特征组合,从而达到准确地特征组合学习,进行精准推荐。 表2 深度网络因子分解机参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。
  • Logistic Regression (LR) LR算法是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断、经济预测等领域。LR算法通过在线性回归的基础上叠加一个sigmoid激活函数将输出值映射到[0,1]之间,是机器学习领域里常用的二分类算法。 表1 逻辑斯蒂回归参数说明 参数名称 说明 名称 自定义策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 对于该策略的描述信息。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和RMSProp两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 重新训练 对第一次训练无影响,仅影响任务重跑。 “是”:清空上一轮的模型结果后重新开始训练。 “否”:导入上一轮的训练结果继续训练。适用于欠拟合的情况。 批量大小 一次训练所选取的样本数。 训练数据集切分数量 将整个数据集切分成多个子数据集,依次训练,每个epoch训练一个子数据集。
  • 在线服务 在线服务用来做线上推荐时的应用,每个服务之间是独立的。即根据不同的离线计算得到的候选集以及相关参数,提供不同的推荐服务。 表1 在线服务参数说明 参数名称 子参数 说明 召回池 “推荐候选集” “添加推荐候选集” 选择表名:添加离线、近线任务或者在线自定义检索召回策略生成的候选集进行融合。您可以单击添加推荐候选集,单击右侧的删除该候选集。 离线、近线召回:该策略候选集都可以通过下拉框直接选取。 在线检索召回:支持在线检索候选集召回,检所请求通过预测接口(参考获取推荐结果中的search_info字段使用方法)传入,生成一路召回对应候选集。该策略默认名称为“dynamic-search”。 融合方式 优先级:根据优先级和百分比计算多个召回候选集融合。优先级高的推荐结果将确保在优先级低的之前。P1优先级最高,P1优先级如果没有用户对应的推荐物品,由配置的低优先级补充,以此类推。优先级相同的推荐候选集,根据百分占比确认召回策略推荐数量,同优先级下的数据占比之和需要等于100%。 权重:根据权重加权融合计算多个召回候选集融合。分数计算规则:每个策略的所占权重和物品在每个召回候选集中所得的分数加权融合,多个策略中相同的物品会进行分数累加。权重大小之和要等于1。 过滤(黑名单) 离线过滤 对离线过滤规则作业产生的结果进行过滤,使之不进入候选集。 单击打开按钮,在下拉框中选择目标过滤规则的作业结果。 行为过滤 对用户行为进行过滤使之不进入候选集。 单击打开按钮,进行行为过滤设置。例如对于用户过去3天内有过曝光行为的物品过滤,使之不进入候选集。可以对曝光过但是有购买行为的物品进行排除,使之依旧在候选集里。 时间区间:指定用户行为时间,取值1-7,默认为1。 行为类型:指定行为类型,对有该行为类型的物品进行过滤。最多选五种。 排除行为类型:将有此行为类型的物品排除掉,使之依旧在候选集中。 属性去重 单击增加属性去重。 “属性名”:从下拉列表中选择属性名进行去重。如“product_color”,则对产品颜色相同的物品进行去重。 “去重位置”:可选择“排序前”或者“排序后”。 属性值过滤 指定定制化用户属性以及物品属性过滤规则,属性过滤规则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性过滤规则。 “用户属性”:指定在用户属性中需要过滤的字段,包含属性名和属性值。如过滤籍贯是广东且性别为男性的用户。 “物品属性”:指定在物品属性中需要过滤的字段,包含属性名和属性值。如过滤产品颜色为红色且产品品牌为华为的物品。 “应用于”:将该规则应用于哪些路召回候选集,默认会作用于所有在召回池中选中的所有路候选集。 属性对过滤 指定定制化用户属性以及物品属性过滤规则,属性过滤规则用于过滤最终用户的推荐结果。例如,对于一线城市的用户过滤敏感信息物品,使之不进入候选集。单击增加属性对过滤规则。 “用户-物品”:指定用户属性或者物品属性中需要过滤的字段。如过滤籍贯是广东且性别为男性的用户。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 过滤(白名单) 属性值保留 指定定制化用户属性、物品属性和应用于某个召回策略属性过滤规则,保留该选定的属性值,使之进入候选集。例如,对于保留一线城市的用户物品信息物品。单击增加属性值保留。 “用户属性”:指定在用户属性中需要过滤的字段,包含属性名和属性值。如保留籍贯是广东且性别为男性的用户。 “物品属性”:指定在物品属性中需要过滤的字段,包含属性名和属性值。如保留产品颜色为红色且产品品牌为华为的物品。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 属性对保留 指定定制化用户属性以及物品属性过滤规则,保留该选定的属性对,使之进入候选集。例如,对于保留一线城市用户的物品信息。单击增加属性对保留。 “用户-物品”:指定用户属性或者物品属性中需要保留的字段。如保留籍贯是广东且性别为男性的用户。 “应用于”:该过滤规则应用于所选的候选集,默认会作用于所有在召回池中选中的所有路候选集。 排序 点击率预估 点击率预估默认关闭。打开按钮之后,在“排序”下拉选项中选择计算成功的排序策略名称。 综合排序 综合排序即根据客体和主体的相关属性进行重排序处理。 属性匹配,单击添加匹配特征对,如用户特征名为city,物品特征名选择tags,权重值设置为1,其意思为根据选定的主体和客体相关属性对的匹配情况累计权重值。 数值比较,单击添加属性权重,在下拉列表中选择属性名称,设置权重,根据客体相关数值属性的大小进行重排序。 统计方式,根据数值属性的大小顺序(ORDER)或者绝对值进行权重累加(ABS)统计。 点击率权重:当同时选择点击率预估和综合排序进行重排序时,汇总分数时点击率相关得分的权重值。 综合排序权重:当同时选择点击率预估和综合排序进行重排序时,汇总分数时综合排序相关得分的权重值。 融合方式:当同时选择点击率预估和综合排序进行重排序时,汇总分数时的统计方式。根据数值属性的大小顺序(ORDER)或者绝对值进行权重累加(ABS)统计。 高级类型选项 打散 打散是指推荐的结果集中根据客体的选择的字符串类型的属性进行打散,避免推荐结果集过于集中,增加推荐结果的新颖性。 您可以在下拉列表中选择打散属性。 置顶 置顶功能则人为的将选定的某一路或多路候选集放在推荐结果前面。您可以在下拉列表中选择需要置顶的推荐候选集。 降权 降权是指定时间区间内用户对物品有过指定的行为类型记录时,将对相应物品进行降权处理。 例如对于用户过去3天内有过曝光行为的物品降权,但是可以对曝光过但是有购买行为的物品进行排除,不对其降权。 时间区间:指定用户行为时间,取值1-7,默认为3。 行为类型:指定行为类型,对有该行为类型的物品进行降权。最多选五种。 排除行为类型:将有此行为类型的物品排除掉,不对其进行降权。 父主题: 算法介绍及参数说明
  • 过滤规则 过滤规则用于配置候选集的过滤方式,使之不进入候选集。对于每个需要过滤的行为,生成用户具有该行为的物品的列表。再对同用户的每种行为的物品列表进行“与”或者“或”的关系,最终生成用户-物品过滤表。 表1 过滤规则参数说明 参数名称 说明 名称 自定义过滤规则名称。由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 过滤规则的相关描述信息。 频次 指定与用户个性化的物品候选集过滤准则。例如对于用户过去3天内有过view行为的物品(如新闻)过滤,使之不进入候选集。单击增加历史行为过滤,单击后方的删除过滤行为。相关参数解释如下: 相对时间间隔:与数据源内的行为数据记录最后的一条时间相差天数。 最小次数:某用户对某物品产生某行为的最小次数。 行为类型:指定行为类型。 绝对时间间隔:与当前时间相差天数。 最大次数:某用户对某物品产生某行为的最大次数。 系统默认行为类型包括: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读 download:下载 tip:打赏 subscribe:关注 行为过滤逻辑 各个频次之间的逻辑。 “AND”逻辑为在7天内点赞超过3次且在7天内消费超过3次的物品。 “OR”逻辑为在7天内点赞超过3次或在7天内消费超过3次的物品。 最大推荐结果数 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 父主题: 算法介绍及参数说明
  • 自定义场景功能说明 表1 功能说明 功能 说明 详细指导 创建自定义场景 自定义场景作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 创建自定义场景 召回策略 召回策略通过大数据计算或深度训练生成推荐候选集。 召回策略 过滤规则 过滤规则用于生成推荐的过滤集,包含黑白名单、历史行为过滤等特性。支持用户在线上推理过程中完成对相关物品的过滤。 过滤规则 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 排序策略-离线特征工程 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。 排序策略-离线排序模型 在线服务 在线服务用来做线上推荐时的应用,每个服务之间是独立的。即根据不同的离线计算得到的候选集以及相关参数,提供不同的推荐服务。 在线服务 效果评估 指用于通过推荐系统推荐出去的结果集并利用trace_id回流到推荐系统的行为的点击率、转化率等指标的计算。 效果评估
  • 修改离线数据源 前提条件 已存在的离线数据源有修改或者更新并已经上传至OBS。 只有在数据源数据结构特征抽取人工复核确认之前才允许修改数据源。 注意事项 修改编辑之后的离线数据源需要重新进行数据结构抽取和检测、探索等操作。 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入数据源列表页面。 在数据源列表单击目标数据源名称,进入数据源详情页面。 单击离线数据源右侧的“编辑”,在页面下方单击选择目标文件在OBS中的存储位置。 图1 修改离线数据源 单击“确认”,完成修改。
  • 操作步骤 在“执行步骤”页签,单击数据探索下的“执行”。进入“数据探索”页面,确认页面信息后单击“是”。待状态为“已完成”时,完成数据格式的转化。 执行完成在页面下方会显示数据探索报告,包括“用户报表”、“物品报表”、“行为报表”和“画像查询”。 单击目标报表名称查看具体报表信息。 图1 查看报表 用户报表:根据不同数据格式展示用户数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 百分位数:将数据进行排序,统计该数据在整个数据中所占的百分比。 图2 百分位数 分布统计:通过查看分布统计了解各参数下参数值的分布情况。如可以根据性别展示数据中的性别数据分布。可通过查看标签,了解数据中各种标签的分布情况。 图3 分布统计 物品报表:根据不同数据格式展示物品数据的类型、最大值和最小值。您可以单击相关数据后的查看数据的详细信息。 行为报表:行为报表展示各种行为类型以及该数据中此行为出现的次数。 画像查询:可以查询指定的用户或物品画像信息,包括静态和动态。
  • 操作步骤 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。单击目标数据源名称进入数据源详情页面。 在“执行步骤”页签,单击“数据结构”下的“开始识别”,进入“识别”页面,确认页面信息后单击“是”进行特征抽取。 当执行完成“识别”状态为“已完成”时,进行“人工复核”确认操作。 在“特征抽取”页签确认识别出的数据信息。 如果复核抽取的数据信息无误,单击“确认”,在“复核特征抽取”页面单击“是”完成复核。如果复核抽取的数据信息不符合预期,可选择“重新识别” 。 该页面包含“用户特征”、“物品特征”、“正向行为类型”和“负向行为类型”等信息,具体描述请参见表1。 图1 确认特征抽取 表1 确认特征参数 参数名称 说明 用户特征 列表中展示抽取的用户特征和参数类型。您可以根据业务需求单击增加用户特征。单击特征后方的删除不需要的用户特征。 物品特征 列表中展示抽取的物品特征和参数类型,此特征会额外应用于所选字段的功能。您可以根据业务需求单击增加物品特征。单击特征后方的删除不需要的物品特征。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“兴趣属性”或者“关键词提取”。其中: 兴趣属性,此特征将会用于统计用户的兴趣标签,并生成特征名为“interested_原特征名”的特征。 关键词提取,只有当关键词为content和title时会进行关键词提取,并生成特征名为“keyword_原特征名”的特征。 正向行为类型 列表中展示抽取的正向行为类型。您可以根据业务需求单击增加正向行为类型。单击特征后方的删除不需要的正向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”。其中: 历史记录:此特征将会用于统计用户此行为的历史记录,并生成特征名为“history_原特征名”的特征。 物品热度值:此行为将会被用于统计物品的热度值信息,并生成特征名为“statistics_hotValue”的特征。 说明: 如果您有自定义行为类型,系统识别后,会默认为正向行为类型,默认分数为0.5。您可以根据业务需求对其进行修改,也可以删除,直接添加为负向行为类型。 负向行为类型 列表中展示抽取的负向行为类型。您可以根据业务需求单击增加负向行为类型。单击特征后方的删除不需要的负向行为类型。 您可以从“应用于”右侧的下拉选项中设置该数据的使用维度是“历史记录”或者“物品热度值”,其相关说明与正向行为类型一致。
  • 导入近线数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 在数据源列表单击目标数据源名称,进入数据源详情页面。 在页面的“近线数据源”页签,进行参数配置。您可以根据业务需求选择导入数据类型。详请参见表1。 表1 近线数据源参数说明 参数名称 说明 实时计算规格 可选择“4CU”、“8CU”、“16CU”和“32CU”四种规格。 用户画像实时导入 通过SDK导入通道中存储的用户画像实时数据。详情参见上传实时数据。在“用户画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 物品画像实时导入 通过SDK导通道中存储的物品画像实时数据。在“物品画像实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 行为数据实时导入 通过SDK导入通道中存储的行为数据。在“行为数据实时导入”右侧,单击打开按钮,在弹出的对话框中进行确认。 说明: “用户画像实时导入”、“物品画像实时导入”以及“行为数据实时导入”可以单独进行导入。 打开目标数据右侧的导入按钮,确认“实时计算规格”信息和计费后并进行确认后,单击“是”进行实时导入。待数据状态成为“运行中”时,表示实时数据导入完成。每“执行”一次导入操作,之前的数据内容将被覆盖,请您谨慎操作。 图1 实时导入
  • 购买套餐包 登录RES管理控制台,在“总览”页面,单击“购买套餐包”,进入“购买预付套餐包”页面。 在“购买预付套餐包”页面,您可以通过“计算类型”下的“计算资源”和“存储资源”和“在线服务”选择不同类型的套餐包。 根据业务需求选择套餐包和套餐包数量,单击“下一步”,进入规格确认。 规格确认无误后,单击“去支付”,然后在支付页面完成付款,付款成功后即完成套餐包的购买。 RES目前只支持华北-北京四区域。 计费时将优先使用套餐包的额度,超出额度部分将以当月累计使用量所在的阶梯价计费。套餐包的额度为购买日起一年内的可用资源数。套餐包的有效时长为一年。 已购买套餐包不支持退订,购买前请确认。
  • 创建数据源 登录RES管理控制台,在左侧菜单栏中选择“数据源”,进入“数据源”列表页面。 单击“创建”,在创建数据源页面,参考表1配置相关参数。 表1 创建数据源参数说明 参数名称 说明 名称 数据源的名称,名称只能是字母、数字、下划线或者中划线组成的合法字符串。 用户属性表 从OBS桶中选择数据。在“用户属性表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件或文件夹。 如果选取文件夹,该文件夹下面的数据格式需保持一致,避免数据干扰。 物品属性表 从OBS桶中选择数据。在“物品属性表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件或文件夹。 如果选取文件夹,该文件夹下面的数据格式需保持一致,避免数据干扰。 用户操作行为表 从OBS桶中选择数据。在“用户操作行为表”右侧,单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。 说明: “用户属性表”、“物品属性表”以及“用户操作行为表”不能为同一路径。 离线规格 可选择的规格有“4CU”、“8CU”、“16CU”、“32CU”、“64CU”、“128CU”。规格越大,计算越快。 单击“立即创建”。 数据源创建完成后,系统自动跳转至数据源列表页面并提示您数据源创建成功。针对创建好的数据源,您可以进行“删除”操作。您可以在数据源列表页面单击您创建的数据源名称进入数据源详情页面。
  • 套餐介绍 计算资源分为“计算型CPU(1U4G)实例”、“计算型GPU(P100)实例”、“计算型GPU(V100)实例”3种类型。存储资源支持“画像存储(一百万)”。在线服务支持“在线并发9000TPS-时”,“TPS-时”表示每小时平均TPS。 规格和支持功能请参见表1。 表1 计算资源 计算类型 资源名称 购买时长 支持功能 有效期 计算资源 “计算型CPU(1U4G)实例” 20000小时 离线作业 在线作业 1年 “计算型GPU(P100)实例” 300小时 “计算型GPU(V100)实例” 300小时 存储资源 “画像存储(一百万)” 9000小时 画像存储 在线服务 “在线并发9000TPS-时” - 在线服务调用API -
  • 操作流程 本章节介绍使用RES,从资源准备到在线服务完成推荐的全流程。RES流程图如图1所示。 图1 RES操作流程 表1 使用流程说明 流程 子任务 说明 详细指导 数据源 准备离线数据源 需要您准备包含用户数据,物品数据,行为数据上传至对象存储服务(OBS)用于推荐系统的离线计算。 准备离线数据源 上传离线数据源至OBS 创建离线数据源 在使用RES之前,首先您需要创建一个数据源,后续的操作都是基于您创建的数据源进行的。 创建离线数据源 上传实时数据(可选) RES通过SDK上传实时数据,进行数据计算和处理,更新用户的相关数据。 上传实时数据 数据质量管理 数据质量管理操作可以将数据源经过数据特征抽取,生成推荐系统内部通用的数据格式。 数据质量管理 选择并配置推荐业务 智能场景 针对对应的场景,由RES根据场景类型预置好对应的智能算法,为匹配的场景提供智能推荐服务。 智能场景简介 自定义场景 面向了解推荐算法等相关的用户,可自定义推荐中涉及算法的使用和组合,能够自定义开发推荐流程,提供推荐服务。 自定义场景简介 获取推荐结果 - 您可以通过管理控制台进行结果预测,也可以通过API接口获取最终的推荐结果。 智能场景 获取推荐结果 自定义场景 获取推荐结果 效果评估(可选) - 创建效果评估可以对服务设置指标,查看推荐结果的具体衡量指标。 智能场景 效果评估 自定义场景 效果评估
  • 通过OBS管理上传数据 本文档中,采用管理控制台上传数据至OBS。OBS创建桶以及上传文件的更多操作方式及指导,请参见创建桶和上传对象。 执行如下操作,将数据导入到您的数据集中,以便用于模型训练和构建。 登录OBS管理控制台,在RES同一区域内创建桶。如果已存在可用的桶,需确保OBS桶与RES在同一区域。 参考上传文件,将本地数据上传至OBS桶中。如果您的数据较多,推荐OBS Browser+上传数据或上传文件夹。
  • 进行服务授权 当您选择开通推荐系统,首次登录RES管理控制台系统会自动弹出“RES服务权限委托”的对话框,提示服务进行委托授权,即授权RES服务请求获取访问您在其他云产品中的资源,未授权将不能使用RES的完整功能。 图1 权限委托 单击“同意授权”系统会自动创建委托。由于RES与其他云服务之间存在业务交互关系,需要与这些云服务协同工作,因此需要您创建云服务委托,完成授权后将操作权限委托给RES,让RES以您的身份使用这些云服务,代替您进行一些任务调度、资源运维等工作。下次再进入RES管理控制台首页时,系统不会再弹出访问授权的对话框。 父主题: 准备工作
  • 离线作业功能说明 表1 功能说明 离线作业 说明 详细指导 组合作业 组合作业作为一个包含多个子任务的作业,通常用于多个召回、过滤、排序等任务。 组合作业 数据质量 数据质量是用户在进行离线计算之前使用原始初始格式数据或者通用格式数据检测输入数据是否合法。 数据质量 特征工程 特征工程常用于抽取用户、物品的特征和特定算法的特征生成,一般作为某些算法的前置输入条件。 特征工程 召回策略 召回策略用于生成推荐的候选集,在原始数据中通过算法和规则匹配用户的候选集。 召回策略 排序策略 排序策略根据不同的算法模型对召回策略或者近线策略生成的候选集进行重排序,得到推荐候选集列表。 排序策略 过滤规则 过滤规则用于生成推荐的过滤集,包含黑白名单、历史行为过滤等特性。支持用户在线上推理过程中完成对相关物品的过滤。 过滤规则 效果评估 根据用户行为的数据回流,提供多维度的效果统计。 效果评估
  • 创建计算资源 登录RES管理控制台,在“全局配置”页面的计算资源区域,单击“创建”添加计算资源。 在“创建计算资源”页面,填写计算资源相关配置,请参见表1。配置资源请勿超过集群资源最大限制,配置过大会导致计算失败。 表1 添加资源参数说明 参数名称 说明 资源名 资源名最大长度为10字符,只能由字母,数字,下划线,中划线组成。 Driver内存 Driver内存大于等于512MB。 DLI:默认7GB。 Driver核数 Driver核数,大于等于1。 DLI默认2。 Executor内存 Executor内存大于等于1GB。 DLI:默认8GB。 Executor核数 Executor核数,大于等于1。 DLI默认2。 Executor个数 个数,大于等于1。 DLI默认7。 完成该项配置后,单击“确定”,完成创建计算资源。
  • 创建场景 您可以根据自己的业务创建场景进行配置,最多可以创建10个场景。具体操作如下: 登录RES管理控制台,在“全局配置”页面的属性配置区域,您可以直接在默认场景进行配置。也可以单击场景右侧的“创建”,进入“创建场景”页面。 输入场景名称单击“确定”,即完成场景创建。 在场景下拉列表中选择目标场景进行配置,配置完毕单击属性操作列的“保存”。 “任务配置地址”:用于存放创建作业时自动生成的JSON格式的配置源文件存储路径。 “全局特征信息文件”:根据全局特征信息文件规范准备并上传的全局特征信息文件路径。 “通用格式数据”:经过特征工程处理的宽表路径。 “用户属性表”:离线数据用户属性表的OBS路径。 “物品属性表”:离线数据物品属性表的OBS路径。 “用户操作行为表”:离线数据用户操作行为表的OBS路径。 图1 属性配置
  • 查看在线服务详情 当在线服务创建成功后,您可以进入“在线服务”页面,来查看服务详情。 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入“在线服务”管理页面。 您可以在服务列表直接查看服务的“名称”、“状态”、“调用总次数”、“开通状态”和“服务类型”等。 当服务部署成功:您可以单击服务名称左侧的查看预测接口、ID、在线流程名称、在线流程ID进行调用。 当服务部署失败:您可以单击服务名称左侧的查看失败原因,根据失败原因对服务配置进行调整,重新部署。常见的可能失败原因及解决方法请参见表1。 表1 部署失败解决方法 报错 失败原因 解决方法 Failed to deploy service(A maximum of (5) real-time service instances are allowed. 一个服务允许选择的节点个数不能超过5个。 减少使用的节点个数或者申请增加节点个数。 如有更多问题请提工单咨询技术人员为您解答。 单击目标服务名称,进入服务详情页面查看服务具体信息。 您可以查看服务的“名称”、“状态”、“描述”、“服务类型”、和“预测接口”。 您也可以通过单击预测接口右侧的,复制接口地址,调用服务。 图1 在线服务详情 您可以在如下页面查看服务相关参数信息,包括“在线流程”、“预测”、“配置更新记录”、“排序模型更新记录”。 表2 在线服务详情 参数 说明 在线流程 展示在线流程名称、在线流程ID以及在线流程关于融合、过滤、排序、公共配置和模型相关的参数信息。 预测 可对运行中状态的在线服务进行预测,输入预测代码,单击“预测”后显示预测结果。 配置更新记录 展示配置相关记录。 单击配置记录前方的可查看该记录下详细的模型信息,包括模型名称、版本、分流、计算节点规格和计算节点个数。 排序模型更新记录 展示模型的更新记录。包括模型名称、状态、更新时间和消息。 父主题: 在线服务
  • OBS文件夹示例 自定义OBS桶名 │ obs-offline-data 用于存放用户行为表、用户属性表和物品属性表。 │ obs-customize-data 用于存放用户自定义列表“customize.csv”,该列表应用于召回策略的人工导入策略。 │ obs-filter-data 用于存放用户黑白名单,应用于过滤策略。 │ obs-global-data 用于存放全局特征文件,例如放入名为“global_feature_info.json”的文件。 │ obs-general-data 用于存放经过特征工程处理的宽表,又名通用格式数据。 │ obs-pretrain-data 用于存放排序预处理任务生成的预训练数据。 │ obs-error-data 用于存放异常数据输出路径,来源于近线策略。 │ obs-nearline-data 用于存放近线任务结果数据,宽表形式。 │ obs-model-data 排序模型保存路径。 └ obs-config-data 计算引擎配置地址,用来记录计算引擎的日志。
  • 创建跨源链接 DLI集群绑定完成后,创建跨源链接。步骤如下: 登录RES管理控制台,在“资源中心”页面,选择计算引擎DLI进入列表。 单击DLI集群名称,进入“跨源连接”页面。 在“跨源连接”页面,单击“创建跨源连接”,输入跨源连接名称、已创建并绑定的DLI资源名称和CloudTable资源名称,如图1所示。 跨源连接名称只能包含数字、英文字母、下划线和中划线。不能为空。输入长度不能超过64个字符。 图1 创建跨源连接 单击“确定”,完成连接创建。 在“跨源连接”页面,可单击操作列的“删除”,删除不需要的连接。 当连接状态为“创建中”时,连接不可删除。
  • 获取预测接口 通过在线服务页面获取接口 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表页面。 单击目标服务名称前方的查看预测接口,通过单击预测接口右侧的,复制接口地址,调用服务。 图2 获取预测接口 通过在线服务详情页面获取接口 登录RES管理控制台,在左侧菜单栏中选择“在线服务”,进入服务列表页面。 单击目标服务名称进入服务详情页面,通过单击预测接口右侧的,复制接口地址,调用服务。 图3 获取预测接口
  • 获取微服务网关连接地址 本章节指导您获取微服务网关连接地址。 登录微服务引擎控制台。 左侧导航栏选择“微服务网关 ”。 单击待查看的实例名称。 在“连接信息”区域,获取微服务网关连接地址。 当创建的负载均衡器开通了IPv4公网,则在“连接信息”区域显示公网地址。 当创建的负载均衡器开通了IPv4私网,则在“连接信息”区域显示内网地址。 当创建的负载均衡器开通了IPv4公网和IPv4私网,则在“连接信息”区域同时显示内网地址和公网地址。 父主题: 管理微服务网关
共100000条