华为云用户手册

  • 样例 数据样本 table表 rowid col0 col1 col2 0 1 2 3 1 4 5 6 2 7 8 3 10 11 12 input_keymap表 col_name col_index col_datatype col mycol1 bigint col2 mycol2 bigint convert=0 inputs = { "dataframe": input_df, "keymap_dataframe": None}params = { "inputs": inputs, "selected_col_names": "col1,col2", "append_col_names": "rowid", "kv_delimiter": ":", "item_delimiter": ",", "convert_col2indexId": 0,} convert=1,无输入的keymap表 inputs = { "dataframe": input_df, "keymap_dataframe": None}params = { "inputs": inputs, "selected_col_names": "col1,col2", "append_col_names": "rowid", "kv_delimiter": ":", "item_delimiter": ",", "convert_col2indexId": 1,} convert=1,有输入的keymap表 inputs = { "dataframe": input_df, "keymap_dataframe": input_key_map_df }params = { "inputs": inputs, "selected_col_names": "col1,col2", "append_col_names": "rowid", "kv_delimiter": ":", "item_delimiter": ",", "convert_col2indexId": 1,} 配置流程 运行流程
  • 说明与约束 转换后的结果表不会显示原表中的空值。您可以在结果表中指定需要保留的列,并且输出的列与原表的列一致。 如果存在输入Key_map表,则转化的列为Key_map表与KV表中Key的交集。(在col和keymap表中都存在) 如果存在的输入Key_map表与输入表类型冲突,则输出的Key_map表使用您指定的类型。(和读入的keymap中col_datatype和判断得到的datatype不同 以keymap的类型为主) 输入表中需要转换为KV的列只能为BIGINT或DOUBLE类型。 当selected_col_name 为空时,默认选择整张表。
  • 概述 将普通的table表转为KV(Key:Value)格式的表。 KV表格式定义:Key是列名的index,Value支持BIGINT,DOUBLE和STRING类型。在该组件中可以输入用户定义的key_map表,是列名和Key的映射,但无论是否输入key_map表,该组件都会输出key_map表记录转化后的列名和Key的映射。例如1:10,2:20和3:30。 key_map表格式定义:包含列名和index的映射以及类型信息的col_name,col_index和col_datatype,这三列类型要求是STRING。
  • 参数说明 参数名称 是否必选 参数描述 默认值 selected_col_names 否 选择的列名称,只能为BIGINT或DOUBLE类型。 默认选择整张表。 append_col_names 否 需要保留的列名称,该列会被原样写入至输出表中。 无 kv_delimiter 否 Key和Value的分割符。 半角冒号(:) item_delimiter 否 KV间的分割符。默认为半角逗号(,)。 半角逗号(,) convert_col2indexId 否 指定是否将列转换为编号。取值如下: 1为转换。 0不转换 0 keymap_dataframe 否 输入的索引表。 该参数仅当convertColToIndexId=1时有效。如果未指定该参数,则程序自动计算一套编号。 None
  • 参数说明 参数 是否必选 参数说明 默认值 input_features 是 输入的特征(需要编码的特征) "feature" label_column 是 预测结果类别的字段名 "label" model_saved_path 是 模型保存的路径 "" max_iter 是 最大迭代次数(树的棵数) 4 max_depth 是 树的最大深度 5 subsampling_rate 是 构建单棵树的采样比例 1.0 feature_subset_strategy 是 构建单棵树的特征抽取策略,取值为"auto"、"all" "auto"
  • 样例 数据样本 point 1 2 3 4 5 6 7 8 9 1 1 1 1 1 2 10 3 1 1 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 7 7 3 2 10 5 10 5 4 4 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 10 3 2 1 1 1 1 2 1 1 11 5 1 1 1 2 1 2 1 1 12 2 5 3 3 6 7 7 5 1 配置流程 运行流程 运行示例 Box_plot params = { "inputs": inputs, "selected_cols": "1,2,3,4,5,6,7,8,9", "detect_strategy": "Box_plot"} 过滤后数据表 过滤掉了第1、7、10、12行 point 1 2 3 4 5 6 7 8 9 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 11 5 1 1 1 2 1 2 1 1 模型表 model_key model_value detect_model {'featureName': '1', 'mid': 3.0, 'q1': 1.0, 'q3': 4.0, 'upper_bound': 8.5, 'lower_bound': -3.5} detect_model {'featureName': '2', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '3', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '4', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '5', 'mid': 2.0, 'q1': 2.0, 'q3': 2.0, 'upper_bound': 2.0, 'lower_bound': 2.0} detect_model {'featureName': '6', 'mid': 1.0, 'q1': 1.0, 'q3': 3.0, 'upper_bound': 6.0, 'lower_bound': -2.0} detect_model {'featureName': '7', 'mid': 3.0, 'q1': 2.0, 'q3': 3.0, 'upper_bound': 4.5, 'lower_bound': 0.5} detect_model {'featureName': '8', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} detect_model {'featureName': '9', 'mid': 1.0, 'q1': 1.0, 'q3': 1.0, 'upper_bound': 1.0, 'lower_bound': 1.0} AVF params = { "inputs": inputs, "selected_cols": "1,2,3,4,5,6,7,8,9","detect_strategy": "AVF"} 过滤后数据表 过滤掉了第12行 point 1 2 3 4 5 6 7 8 9 1 1 1 1 1 2 10 3 1 1 2 2 1 1 1 2 1 2 1 1 3 1 1 1 1 2 3 3 1 1 4 4 1 1 1 2 1 2 1 1 5 4 1 1 1 2 1 3 1 1 6 6 1 1 1 2 1 3 1 1 8 3 1 1 1 2 1 2 1 1 9 1 1 1 1 2 1 3 1 1 10 3 2 1 1 1 1 2 1 1 11 5 1 1 1 2 1 2 1 1 模型表 model_key model_value detect_model {'featureName': ['1', '2', '3', '4', '5', '6', '7', '8', '9'], 'frequency_info': {'mid': 73.0, 'q1': 58.0, 'q3': 74.0, 'threshold': 34.0}}
  • 概述 特征异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency) 箱型图用于检测连续值类特征的数据,根据四分位数检测异常特征。 AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。 箱型图异常检测 箱形图可以用来观察数据整体的分布情况,利用中位数,25%分位数,75%分位数,上边界,下边界等统计量来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常数据。 其中上下边界的计算公式如下: UpperLimit=Q3+1.5IQR=75%分位数+(75%分位数-25%分位数)*1.5, LowerLimit=Q1-1.5IQR=25%分位数-(75%分位数-25%分位数)*1.5 (将数据由小到大排序,处于中间的为中位数,即50%分位数,在75%位置的即为75%分位数或四分之三分位数——Q3,在25%位置的即为25%分位数或四分之一分位数——Q1) AVF异常检测(Attribute Value Frequency) AVF算法全称Attribute Value Frequency,针对非数值型的数据,即类别离散数据的算法。具体步骤如下: 将所有的数据点都标为非异常点; 计算所有每一个属性值的频数; 计算每一个点的AVF score,即样本点x的每一个属性值对应的频数之和除以属性总数,这里的属性指的都是category的属性。 AVF score值越小,样本越异常。
  • 参数说明 参数 是否必选 参数说明 默认值 model_path 是 PMML模型所在的位置 "" append_cols 是 需要输出的列,如col1,col2。如果不设置则默认输出所有的输入列 "" result_col 是 预测结果类别的字段名 "prediction_result" score_col 是 预测结果类别概率的字段名 "prediction_score" detail_col 是 预测结果的详细信息 "prediction_detail"
  • 参数说明 参数 是否必选 参数说明 默认值 label_col 是 数据中的标签列。 无 prediction_index_col 是 代表标签编码后的预测结果的列名,需要与mls中各种分类算子预测结果列保持一致。 "prediction_index" label_index_col 是 经过标签编码后的标签列。 "label_index" probability_col 否 预测结果的分类概率列。 "probability" threshold 否 分类阈值,二分类场景下可设置,支持向量机SVM算法不支持。 0.5 positive_category 否 二分类任务的正样本。 无
  • 概述 混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。其中矩阵的行表示真实值,矩阵的列表示预测值。 True Positive(TP):真正类。样本的真实类别是正类,并且模型识别的结果也是正类; False Negative(FN):假负类。样本的真实类别是正类,但是模型将其识别为负类; False Positive(FP):假正类。样本的真实类别是负类,但是模型将其识别为正类; True Negative(TN):真负类。样本的真实类别是负类,并且模型将其识别为负类。
  • 样例 数据样本 id,segmentdoc001,词频统计 是指 统计 一个 字符串 中 , 出现了 多少 个 单词 以及 这些 单词 出现 的 次数 。 配置流程 运行流程 参数设置 结果查看 id,word,countdoc001,的,1doc001,词频统计,1doc001,一个,1doc001,出现了,1doc001,,,1doc001,个,1doc001,出现,1doc001,多少,1doc001,。,1doc001,单词,2doc001,统计,1doc001,次数,1doc001,这些,1doc001,以及,1doc001,中,1doc001,是指,1doc001,字符串,1
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选第一个字段名称 无 inputSelectedColName2 String 是 输入表被选第二个字段名称 无 inputAppendColNames String 否 输入表添加的其他字段名称, 涉及多个字段以逗号分割 无 outputColName String 否 输出的字段名称 output method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine
  • 参数说明 参数 是否必选 参数说明 默认值 user_col 是 用户id所在的列名 "user" item_col 是 项目id所在的列名 "item" output_table_partition 是 数据的并行度 0.5 similarity_type 是 相似度计算公式,取值为cosine,jaccard "cosine" topn 是 最近的n个物品 200 min_user_behavior 是 最小的用户行为数量,取值为[0,+∞) 2 max_user_behavior 是 最多的用户行为数量,取值为[0,+∞) 500 item_delimiter 是 物品之间的分隔符 " " kv_delimiter 是 物品内部的分隔符 ":"
  • 参数说明 参数 是否必选 参数说明 默认值 user_col 是 User列的名称 user item_col 是 Item列的名称 item score_col 是 用户评分列名称 "" min_user_items 是 User互动的Item的最小数量 10 max_user_items 是 User互动的Item的最大数量 1000 max_item_number 是 Item参与计算的人数最大值 1000 output_score_col_name 是 预测用户评分的列名 rec_score user_alpha 是 User的alpha参数。用于计算用户权重:user weight = 1.0/(userAlpha + userClickCount)^userBeta 0.0 user_beta 是 User的Beta参数。用于计算用户权重:user weight = 1.0/(userAlpha + userClickCount)^userBeta 0.5
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选字段名称。 当该字段为空时,dataDF中第一个string类型的字段。 无 mapSelectedColName2 String 是 map表被选字段名称。 当该字段为空时,paramDF中第一个string类型的字段。 无 inputAppendColNamesStr String 否 输入表添加的其他字段名称,涉及多个字段以逗号分隔。 无 inputAppendRenameColNamesStr String 否 输入表添加的其他需要rename字段映射关系。 colName1:colReName1,colName2:colReName2 mapAppendColNamesStr String 否 map表添加的其他字段名称,涉及多个字段以逗号分隔。 无 mapAppendRenameColNamesStr String 否 map表添加的其他需要rename字段映射关系。 colName1:colReName1,colName2:colReName2 outputColName String 否 输出的字段名称。 dist method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine lambda Double 否 SSK需要的参数。 0.5 k Int 否 SSK需要的参数。 10 kVec Int 否 SimHashHamming字符向量的大小。 64 b Int 否 minhash分桶大小。 100 seed Int 否 minhash随机hash函数的种子。 0 topN Int 否 最相似的TopN字符串。 10 subLen Int 否 粗排时,最小子串大小。 1
  • 参数说明 参数名 参数类型 是否必选 参数含义 默认值 inputSelectedColName1 String 是 输入表被选第一个字段名称 无 inputSelectedColName2 String 是 输入表被选第二个字段名称 无 inputAppendColNamesStr String 否 输入表添加的其他字段名称,涉及多个字段以逗号分隔 无 inputAppendRenameColNamesStr String 否 输入表添加的其他需要rename字段映射关系 colName1:colReName1,colName2:colReName2 outputColName String 否 输出的字段名称 distance method String 是 字符串相似度计算方法levenshtein,levenshtein_sim,lcs,lcs_sim,cosine,hash_jaccard_sim cosine lambda Double 否 SSK需要的参数 0.5 k Int 否 SSK需要的参数 10 kVec Int 否 SimHashHamming字符向量的大小 64 b Int 否 minhash分桶大小 10 seed Int 否 minhash随机hash函数的种子 0
  • 输入参数说明 参数名称 参数描述 参数要求 doc_id_col 文章id列 string类型;必填 doc_content 分词后的文本列 string类型;必填;多列时每列当做单独的句子处理 doc_content_sep 分词列中的词分隔符 string类型;必填;默认为" " window_size 滑动窗口大小 integer类型;非必填;默认为整行,取值范围[1, 2147483647] dumping_factor TextRank算法的阻尼系数 double类型;非必填;默认0.85,取值范围(0, 1) max_iter TextRank算法的最大迭代次数 integer类型;非必填;默认100,取值范围[1, 5000] epsilon TextRank算法的收敛残差阈值 double类型;非必填;默认0.000001,取值范围(0.000001, 1) 该算子直接承接分词的结果,无过滤停用词、过滤低频词等操作。 会过滤掉doc_id_col/doc_content为空的行。
  • 样例 数据输入 id text 1 A B C A A A A B D E C B B A A D E C F A F B E 2 O O P X O Y O Z Z Z X X Y O X X O Y Y 3 O O P X O 4 O O P X O Y 配置流程 运行流程 输入参数 输出结果 id keywords weight 1 B 0.220406 1 A 0.17985 1 C 0.17985 1 D 0.140494 1 E 0.140494 2 O 0.277862 2 X 0.277862 2 P 0.148092 2 Y 0.148092 2 Z 0.148092 3 O 0.333333 3 P 0.333333 3 X 0.333333 4 O 0.366736 4 P 0.245928 4 X 0.245928 4 Y 0.141408
  • 原理 该算法基于TextRank,依据的PageRank算法思想,将滑动窗口内的共现词汇对儿当做相连接的节点构建网络,计算节点的价值(即单词的重要性)并排序,数值高的单词即为该文本的关键词。 TextRank公式如下,其中V_i、V_j为网络中的节点(即单词),In(V_i)表示节点V_i的所有入点,Out(V_j)表示节点V_j的全部出点,Out(V_j)表示节点V_j的所有出点(跳转指向的点,即下一个单词),N_ji表示(V_j, V_i)的个数,S(V_i)、S(V_j)表示节点V_i、V_j的价值,d为阻尼系数,默认为0.85。 本算法基于pagerank思想,将共现词对儿AB的两条边(A,B)(B,A)添加进网络,相同元素的共现对儿不重复添加,(A,A)自指向共现对儿不添加。
  • 参数说明 参数 是否必选 参数说明 默认值 id_col 是 标识文章ID的列名,仅可指定一列 "id" word_col 是 word列名,仅可指定一列 "word" count_col 是 count列名,仅可指定一列 "count" doc_count_col 否 指定doc_count列名 "doc_count" total_word_count_col 否 指定total_word_count列名 "total_word_count" total_doc_count_col 否 指定total_doc_count列名 "total_doc_count" tf_col 否 指定TF列名 "tf" idf_col 否 指定IDF列名 "idf" tfidf_col 否 指定TF-IDF列名 "tfidf"
  • 样例 数据样本 id sentence 1 ball ball fun planet galaxy 2 referendum referendum fun planet planet 3 planet planet planet galaxy ball 4 planet galaxy planet referendum ball 配置流程 运行流程 参数设置 结果查看 id word count doc_count total_word_count total_doc_count tf idf tfidf 1 galaxy 1 3 5 4 0.2 0.223144 0.044629 1 fun 1 2 5 4 0.2 0.510826 0.102165 1 ball 2 3 5 4 0.4 0.223144 0.089257 1 planet 1 4 5 4 0.2 0 0 2 fun 1 2 5 4 0.2 0.510826 0.102165 2 planet 2 4 5 4 0.4 0 0 2 referendum 2 2 5 4 0.4 0.510826 0.20433 3 ball 1 3 5 4 0.2 0.223144 0.044629 3 planet 3 4 5 4 0.6 0 0 3 galaxy 1 3 5 4 0.2 0.223144 0.044629 4 ball 1 3 5 4 0.2 0.223144 0.044629 4 planet 2 4 5 4 0.4 0 0 4 galaxy 1 3 5 4 0.2 0.223144 0.044629 4 referendum 1 2 5 4 0.2 0.510826 0.102165
  • 输入参数说明 参数名称 参数描述 参数要求 input_cols 用于分词的列名 string类型;必填;可支持多列 input_cols_sep 多列分词列名分隔符 string类型;必填;默认为"," output_sep 输出表分词列分词分隔符 string类型;必填;默认为" " remain_other_cols 输出是否保留分词列外的其他列 boolean类型;必填;默认为False dict_col 词典表的word列 string类型;非必填;一列的一行代表一个词 enable_ent 是否识别简单实体 boolean类型;非必填;默认为True enable_person 是否识别人名 boolean类型;非必填;默认为True enable_org 是否识别机构名 boolean类型;非必填;默认为True enable_pos 是否进行词性标注 boolean类型;非必填;默认为False pos_sep 词性标注与单词分隔符 string类型;非必填;默认为"/";不得与output_sep重复 enable_tel 是否识别电话号码 boolean类型;非必填;默认为True enable_time 是否识别时间 boolean类型;非必填;默认为True enable_date 是否识别日期 boolean类型;非必填;默认为True enable_chn_time 是否识别中文时间 boolean类型;非必填;默认为True enable_chn_date 是否识别中文日期 boolean类型;非必填;默认为True filter_all_punctuation 是否过滤分词结果全为标点符号的词 boolean类型;非必填;默认为False filter_all_en 是否过滤分词结果为全英文的词 boolean类型;非必填;默认为False filter_all_num 是否过滤分词结果为全数字的词 boolean类型;非必填;默认为False
  • 样例 数据输入 input_table id sentence_en sentence_chn 1 You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 2 It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 3 It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 4 We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 5 you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 6 you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 7 before 12 we finish it. 我们要在十二点之前完成它 8 We will finish it at 20:13:22 我们将在20点13分22秒完成它 9 We will finish it at 13:22 我们将在十三点二十二分完成 10 We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) 11 aaa cafd February 1,2022 xxx 当地时间12月7日 12 dfsad February, 2022 我吃了面包在九八年五月二十八号。 13 dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, 14 dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 15 Feb 1 in 2022 二十年后,我不知道在哪里 16 11th August, 2020 去年12月28日,我去了兰州 17 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 18 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 19 I make 2022/01/08 二零二二年一月零八日,我开始了远行 20 I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 21 I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 27 I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 22 will you 2019.01.30 这是个正确的时间2019年01月30日 23 I got it 1988 31 05 不想写了1988年 31号 05月 24 I got it 1988.02.33 怎么还有1988年.02月.33日 25 I got it 30/05 这个是30号/05月 26 I got it 05. 12(you need know it) 这是最后一个,05月. 12号 dict_table word id 游戏内测 0 电话号码 1 正式上线 2 二十年后 3 4 ok 5 配置流程 运行流程 输入参数 输出结果 sentence_en sentence_chn sentence_en_words sentence_chn_words You can call me at 0513-1323563 我的电话是18812534124,不要打0732-1324-5634 You/nx||can/nx||call/nx||me/nx||at/nx||0513-1323563/nz 我/r||的/uj||电话/n||是/v||18812534124/nz||不/d||要/v||打/v||0732-1324-5634/nz It's a wrong telephone number like 071-2341. You can do it 这个电话号码1032-122233是错误的 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||071/m||2341/m||You/nx||can/nx||do/nx||it/nx 这个/r||电话号码/nz||1032/m||122233/m||是/v||错误/n||的/uj It's a wrong telephone number like 12345678901 这也是个错误电话号码1236452123 It's/nx||a/nx||wrong/nx||telephone/nx||number/nx||like/nx||12345678901/m 这/r||也/d||是/v||个/q||错误/n||电话号码/nz||1236452123/m We will go there at 13 past 10 o'clock. 我们将要在十点钟零十三分钟到那里 We/nx||will/nx||go/nx||there/nx||at 13 past 10 o'clock/nz 我们/r||将要/d||在/p||十点钟零十三分钟/nz||到/v||那里/r you can go there at eleven to twelve o'clock. 你可以在十一点四十九分出发 you/nx||can/nx||go/nx||there/nx||at eleven to twelve o'clock/nz 你/r||可以/v||在/p||十一点四十九分/nz||出发/v you can go there 52 past 20 o'clock. 你可以在二十点五十二分去 you/nx||can/nx||go/nx||there/nx||52 past 20 o'clock/nz 你/r||可以/v||在/p||二十点五十二分/nz||去/v before 12 we finish it. 我们要在十二点之前完成它 before 12/nz||we/nx||finish/nx||it/nx 我们/r||要/v||在/p||十二点/nz||之前/f||完成/v||它/r We will finish it at 20:13:22 我们将在20点13分22秒完成它 We/nx||will/nx||finish/nx||it/nx||at 20:13:22/nz 我们/r||将/d||在/p||20点13分22秒/nz||完成/v||它/r We will finish it at 13:22 我们将在十三点二十二分完成 We/nx||will/nx||finish/nx||it/nx||at 13:22/nz 我们/r||将/d||在/p||十三点二十二分/nz||完成/v We will finish it at 60:22 我们将在六十点二十二分完成(这是个错误时间) We/nx||will/nx||finish/nx||it/nx||at/nx||60/m||22/m 我们/r||将/d||在/p||六十/m||点/q||二十二/m||分/q||完成/v||这/r||是/v||个/q||错误/n||时间/n aaa cafd February 1,2022 xxx 当地时间12月7日 aaa/nx||cafd/nx||February 1,2022/nz||xxx/nx 当地/s||时间/n||12月7日/nz dfsad February, 2022 我吃了面包在九八年五月二十八号。 dfsad/nx||February, 2022/nz 我/r||吃/v||了/ul||面包/n||在/p||九八年五月二十八号/nz dafdsa Feb 1st, 2nd, 3rd, 4th 1936年 3月零九日,02月八日, 1830年, dafdsa/nx||Feb 1st/nz||2/m||nd/nx||3/m||rd/nx||4/m||th/nx 1936年 3月零九日/nz||02月八日/nz||1830年/nz dsafd Feb 1 一八二五年, 三月,12月, 在九号,在五日, 公元前一五三年 dsafd/nx||Feb 1/nz 一八二五年, 三月/nz||12月/nz||在/p||九号/nz||在/p||五/m||日/j||公元前一五三年/nz Feb 1 in 2022 二十年后,我不知道在哪里 Feb 1 in 2022/nz 二十年后/nz||我/r||不/d||知道/v||在/p||哪里/r 11th August, 2020 去年12月28日,我去了兰州 11th August, 2020/nz 去年/nz||12月28日/nz||我/r||去/v||了/ul||兰州/ns 1st in/of Feb 凌晨时候我醒了一次,然后到二月拾日 1/m||st/nx||in/nx||of Feb/nz 凌晨/nz||时候/n||我/r||醒/v||了/ul||一/m||次/q||然后/c||到/v||二月拾日/nz 1 in Feb in 2022 人不能,至少不应该...【陆月贰十五日记】 1 in Feb in 2022/nz 人/n||不能/v||至少/d||不/d||应该/v||陆月/nr||贰十五/m||日记/n I make 2022/01/08 二零二二年一月零八日,我开始了远行 I/nx||make/nx||2022/01/08/nz 二零二二年一月零八日/nz||我/r||开始/v||了/ul||远行/vn I make 01/08/2022 一月八日,这个活动终止了,在二〇二二年。 I/nx||make/nx||01/08/2022/nz 一月八日/nz||这个/r||活动/vn||终止/v||了/ul||在/p||二〇二二年/nz I make 2203-01-20 贰贰零叁年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰贰零叁年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz I make 2203-01-20 贰零二三年一月二十日,游戏内测,五月三十日,正式上线。 I/nx||make/nx||2203-01-20/nz 贰零二三年一月二十日/nz||游戏内测/nz||五月三十日/nz||正式上线/nz will you 2019.01.30 这是个正确的时间2019年01月30日 will/nx||you/nx||2019.01.30/nz 这/r||是/v||个/q||正确/a||的/uj||时间/n||2019年01月30日/nz I got it 1988 31 05 不想写了1988年 31号 05月 I/nx||got/nx||it/nx||1988 31 05/nz 不想/v||写/v||了/ul||1988年 31号 05月/nz I got it 1988.02.33 怎么还有1988年.02月.33日 I/nx||got/nx||it/nx||1988.02.33/nz 怎么/r||还有/v||1988/m||年/q||02/m||月/q||33/m||日/j I got it 30/05 这个是30号/05月 I/nx||got/nx||it/nx||30/05/nz 这个/r||是/v||30号/05月/nz I got it 05. 12(you need know it) 这是最后一个,05月. 12号 I/nx||got/nx||it/nx||05. 12/nz||you/nx||need/nx||know/nx||it/nx 这/r||是/v||最后/f||一个/mq||05月. 12号/nz
  • 输出表说明 列名 列描述 备注 xxx 原输入表列 如果remain_other_cols为True,则保留input_table全列;如果为False,则只保留input_table分词列 xxx_words 分词列的分词结果列 分词结果列列名为原分词列列名 + "_words" dict_table是对默认词典的增加,不是只保留dict_table里的词; 自定义词典或自定义合并的词词性标注为"nz"; 暂不支持中文繁体简体混合的时间日期,如“陆月贰十日”。
  • 样例 数据输入 id text 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 配置流程 运行流程 输入参数 输出结果 id text text_summary 1 荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,未来重启的中国旅游市场会更加细分,也会出现更多新的旅行需求。 未来重启的中国旅游市场会更加细分,荷兰国家旅游会议促进局亚洲区总监、中国区首席代表杨宇对《环球时报》记者表示,也会出现更多新的旅行需求。 2 此外,国外的酒店从业者也非常期待中国游客“回归”。禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,重新召回中国籍宾客关系服务人员、中文管家、中国厨师等。 禧亚酒店及度假村集团旗下的5家岛屿度假酒店都已重启中国管家计划,禧亚酒店及度假村集团大中华区品牌负责人张章告诉记者,作为马尔代夫最大的酒店集团之一,
  • 输入参数说明 参数名称 参数描述 参数要求 doc_id_col 标识文章的id列 string类型;必填;仅支持一列 sentence_col 原文本列列名 string类型;必填;仅支持一列 sentence_sep 用于拆分句子的标点符号 string类型;必填;默认为",,。::“”??!!;;" top_n 输出的摘要句子个数 integer类型;必填;默认为3 remain_other_cols 是否保留id列和原文本列外的其他列 boolean类型;必填;默认为False
  • 样例 数据输入 id text 1 在周六的早晨,我喜欢煎个鸡蛋,煮一杯红底薏米粥,窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月,这座边陲小镇迎来了带领他们走向未来一百年繁华的人,这一天注定不平凡。 配置流程 运行流程 输入参数 输出结果 id text 1 在周六的早晨, 1 我喜欢煎个鸡蛋, 1 煮一杯红底薏米粥, 1 窝在榻榻米中慢慢苏醒。 2 在一九一三年的五月, 2 这座边陲小镇迎来了带领他们走向未来一百年繁华的人, 2 这一天注定不平凡。
  • 样例 数据样本 使用公开数据集AirPassengers.csv的前120行 数据示例 Month,Passengers1949-01,1121949-02,1181949-03,1321949-04,1291949-05,1211949-06,1351949-07,1481949-08,1481949-09,1361949-10,1191949-11,1041949-12,1181950-01,1151950-02,1261950-03,141
  • 参数说明 表3 参数 是否必选 描述 默认值 seq_col_name 是 时序列。仅用来对valueColName排序。 无 value_col_name 是 数值列。 无 group_col_names 否 分组列,多列用逗号分隔,例如col0,col1。每个分组会构建一个时间序列。 无 order 是 p、d和q分别表示自回归系数、差分、滑动回归系数。取值均为非负整数,范围为[0, 36]。 无 seasonal 否 sp、sd、sq分别表示季节因素的自回归,差分,移动平均系数,取值均为非负整数,范围为[0, 36]。 0,0,0 period 否 seasonal周期。数字类型,取值范围为(0, 100]。 12 predict_step 否 预测条数。数字类型,取值范围为(0, 365]。 12 confidence_level 否 预测置信水平。数字类型,取值范围为(0, 1)。 0.95
  • 参数说明 参数 是否必选 参数说明 默认值 id_col 是 用户id所在的列名 "id" vector_col 是 向量的列名列表,如col1,col2 "" topn 是 输出的距离最近的向量的数目。取值范围[1,+∞) 20 distance_type 是 距离的计算方式。取值[cosine] "cosine" distance_threshold 是 距离的阈值。当两个向量的距离小于此值时输出。取值范围(0,+∞) 1.0 leaf_size 是 叶子节点大小 50
共100000条