华为云用户手册

MapReduce服务 MRS-HTML输入:数据处理规则

数据处理规则首先配置父标签，限定搜索范围，父标签要存在，否则取到的内容为空。配置输入字段，子标签用于精确定位字段所在的标签，相同的标签再通过关键字来精确匹配。关键字用于匹配字段的内容，配置方法类似于“输入设置”中的“文件过滤器”字段，支持“*”通配符，提供三种标记用于辅助定位，分别为： “#PART”标记，表示取被通配符“*”所匹配的值，如果存在多个“*”号，可以指定一个序号，按从左到右的顺序，取得对应序号的“*”所配置的内容。例如“#PART1”，表示取第1个“*”号匹配的值；“#PART8”，表示取第8个“*”号匹配的值。 “#NEXT”标记，表示取当前匹配的标签的下一个标签的值。 “#ALL”标记，表示取当前匹配的标签的所有内容作为值。配置的标签有误时，取到的值为空，不会报错。

MapReduce服务 MRS
MapReduce服务 MRS-HTML输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值父标签所有字段的上层HTML标签，用于限定搜索范围 string 是无文件名自定义一个字段，以当前数据所在的文件名作为该字段值。 string 否无绝对文件名配置“文件名”引用文件名环境，选中单选框时是带绝对路径的文件名；不选中单选框时是不带路径的文件名。 boolean 否否验证输入字段是否检验输入字段与值的类型匹配情况，值为“NO”，不检查；值为“YES”，检查。若不匹配则跳过该行。 enum 是 YES 输入字段配置输入字段的相关信息：位置：目标字段对应的位置，从1开始编号。字段名：配置字段名。字段所在的标签：字段的标签。关键字：配置关键字，能够匹配标签所在的内容，支持通配符，例如标签内容为“姓名”，可配置关键字“*姓名*”。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-Spark输入:样例

样例以SPARK导出到sqlserver2014数据库为例。在sqlserver2014上创建一张空表“test_1”用于存储SparkSQL数据。执行以下语句： create table test_1 (id int, name text, value text); 配置“Spark输入”算子，生成三个字段A、B和C：设置了数据连接器后，单击“自动识别”，系统将自动读取数据库中的字段，可根据需要选择添加，然后根据业务场景手动进行完善或者修正即可，无需逐一手动添加。此操作会覆盖表格内已有数据。通过“表输出”算子，将A、B和C输出到“test_1”表中： select * from test_1;

MapReduce服务 MRS
MapReduce服务 MRS-Spark输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 Spark数据库 SparkSQL的数据库名称。 String 否 default Spark表名配置SparkSQL表名。仅支持一个SparkSQL表。 String 是无分区过滤器配置分区过滤器可以导出指定分区数据，默认为空，导出整个表数据。例如导出分区字段locale的值为“CN”或“US”的表数据，输入如下： locale = "CN" or locale = "US" String 否 - Spark输入字段配置SparkSQL输入信息：列名：配置SparkSQL列名。字段名：配置输入字段名。类型：配置字段类型。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 -

MapReduce服务 MRS
MapReduce服务 MRS-Hive输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 Hive数据库 Hive的数据库名称。 String 否 default Hive表名配置Hive表名。仅支持一个Hive表。 String 是无分区过滤器配置分区过滤器可以导出指定分区数据，默认为空，导出整个表数据。例如导出分区字段locale的值为“CN”或“US”的表数据，输入如下： locale = "CN" or locale = "US" String 否 - Hive输入字段配置Hive输入信息：列名：配置Hive列名。字段名：配置输入字段名。类型：配置字段类型。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 -

MapReduce服务 MRS
MapReduce服务 MRS-Hive输入:样例

样例以Hive导出到sqlserver2014数据库为例。在sqlserver2014上创建一张空表“test_1”用于存储Hive数据。执行以下语句： create table test_1 (id int, name text, value text); 配置“Hive输入”算子，生成三个字段A、B和C：设置了数据连接器后，单击“自动识别”，系统将自动读取数据库中的字段，可根据需要选择添加，然后根据业务场景手动进行完善或者修正即可，无需逐一手动添加。此操作会覆盖表格内已有数据。通过“表输出”算子，将A、B和C输出到“test_1”表中： select * from test_1;

MapReduce服务 MRS
MapReduce服务 MRS-CSV文件输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值分隔符 CSV文件的列分隔符，用于分隔每行的数据。 string 是 , 换行符用户根据数据实际情况，填写字符串作为换行符。支持任何字符串。默认使用操作系统的换行符。 string 否 \n 文件名是否作为字段自定义一个字段，以当前数据所在的文件名作为该字段值。 string 否无绝对路径配置“文件名是否作为字段”引用文件名环境，选中单选框时是带绝对路径的文件名；不选中单选框时是不带路径的文件名。 boolean 否不选中验证输入字段是否检验输入字段与值的类型匹配情况，值为“NO”，不检查；值为“YES”，检查。若不匹配则跳过该行。 enum 是 YES 输入字段配置输入字段的相关信息：位置：源文件每行被列分隔符分隔后，目标字段对应的位置，从1开始编号。字段名：配置字段名。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIM”E或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值太长则按配置的长度截取，类型为“CHAR”时实际长度不足则空格补齐，类型为“VARCHAR”时实际长度不足则不补齐。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-HBase输入:样例

样例以HBase导出到sqlserver2014数据库为例。在sqlserver2014上创建一张空表test_1用于存储HBase数据。执行以下语句： create table test_1 (id int, name text, value text); 配置“HBase输入”算子，生成三个字段A、B和C：设置了数据连接器后，可以单击“自动识别”，系统将自动读取数据库中的字段，可根据需要选择添加，然后根据业务场景手动进行完善或者修正即可，无需逐一手动添加。此操作会覆盖表格内已有数据。通过“表输出”算子，将A、B和C输出到test_1表中： select * from test_1;

MapReduce服务 MRS
MapReduce服务 MRS-HBase输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 HBase表类型配置HBase表类型，可选项为normal（普通表）和phoenix表。 enum 是 normal HBase表名配置HBase表名。仅支持一个HBase表。 string 是无 HBase输入字段配置HBase输入信息：列族：配置HBase列族名。列名：配置HBase列名。字段名：配置输入字段名。类型：配置字段类型。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。主键：配置是否为主键列。普通HBase表主键只能指定一个；phoenix表主键可以指定多个，配置多个列为主键时，会按照配置列的先后顺序对其进行拼接。必需配置一个主键列。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-表输入:样例

样例以sqlserver 2014为例，创建测试表test： create table test (id int, name text, value text); 往测试表中插入三条数据： insert into test values (1,'zhangshan','zhang'); insert into test values (2,'lisi','li'); insert into test values (3,'wangwu','wang'); 查询表：配置“表输入”算子，生成三个字段：设置了数据连接器后，可以单击“自动识别”，系统将自动读取数据库中的字段，可根据需要选择添加，然后根据业务场景手动进行完善或者修正即可，无需逐一手动添加。此操作会覆盖表格内已有数据。单击“自动识别”后，建议手动检查系统自动识别出的字段类型，确保与表中实际的字段类型相符合。例如Oracle数据库中的“date”类型，系统会自动识别为“timestamp”类型，若不手动处理会导致后续Hive表在查询数据时报错。配置输出算子，输出到HDFS/OBS，结果如下：

MapReduce服务 MRS
MapReduce服务 MRS-固定宽度文件输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值换行符用户根据数据实际情况，填写字符串作为换行符。支持任何字符串。默认使用操作系统的换行符。 string 否 \n 分割长度单位长度单位，可选择“char”字符或“byte”字节。 enum 是 char 输入字段配置输入字段相关信息：固定长度：设置字段长度，第2个字段起点从第1个字段终点开始，以此类推。字段名：配置输入字段名。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-概述:算子简介

算子简介 Loader算子包括以下类型：输入算子数据转换的第一步，负责将数据转换成字段，每次转换有且只能有一种输入算子，涉及HBase或Hive导入导出时，必须填写。转换算子数据转换的中间转换步骤，属于可选类型，各个转换算子可任意搭配使用。转换算子是针对字段而言，必须先使用输入算子，将数据转换成字段。输出算子数据转换的最后一步，每次转换有且只能有一种输出算子，用于输出处理后的字段。涉及HBase或Hive导入导出时，必须填写。表1 算子分类一览表类型描述输入 CSV文件输入：将文件的每一行按指定分隔符转换成多个输入字段。固定宽度文件输入：将文件的每一行，按可配置长度的字符或字节，转换成多个输入字段。表输入：将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 HBase输入：将HBase表的指定列转换成同等数量的输入字段。 HTML输入：将HTML文件中的元素转换成输入字段。 Hive输入：将Hive表的指定列转换成同等数量的输入字段。转换长整型时间转换：实现长整型数值与日期类型的互换。空值转换：将空值替换成指定值。增加常量字段：生成常量字段。随机值转换：生成随机数字段。拼接转换：拼接已有字段，生成新字段。分隔转换：将已有字段，按指定分隔符，分隔出新字段。取模转换：对已有字段取模，生成新字段。剪切字符串：通过指定起始位置，截取已有字符串类型的字段，生成新字段。 EL操作转换：指定算法，对字段值进行运算，目前支持的算法有：md5sum、sha1sum、sha256sum和sha512sum等。字符串大小写转换：对已有的字符串类型字段，切换大小写，生成新字段。字符串逆序转换：对已有的字符串类型字段，做逆序变换，生成新字段。字符串空格清除转换：对已有的字符串类型字段，清除左右空格，生成新字段。过滤行转换：配置逻辑条件过滤掉含触发条件的行。更新域：当满足某些条件时，更新字段的值。输出 Hive输出：将已生成的字段输出到Hive表。表输出：将已生成的字段输出到关系型数据库表。文件输出：将已生成的字段通过分隔符连接并输出到文件。 HBase输出：将已生成的字段输出到HBase表。

MapReduce服务 MRS
MapReduce服务 MRS-概述:转换流程

转换流程 Loader读取源端数据，通过输入算子将数据按规则逐一转换成字段，再通过转换算子，对这些字段做清洗或转换，最后通过输出算子将处理后的字段，输出到目标端。每个作业，如果进行数据转换操作，有且只能有一个输入算子，有且只能有一个输出算子。不符合转换规则的数据，将成为脏数据跳过。从关系型数据库导入数据到HDFS/OBS，可以不用配置数据转换，数据将按“,”分隔保存到HDFS/OBS。从HDFS/OBS导出数据到关系型数据库，可以不用配置数据转换，数据将按“,”分隔保存到关系型数据库。

MapReduce服务 MRS
MapReduce服务 MRS-使用Loader导出数据:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的目录、HBase表和数据。获取外部数据源（SFTP服务器或关系型数据库）使用的用户和密码。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS/OBS导出数据时，确保HDFS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定Yarn队列功能，该用户需要已授权有相关Yarn队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从HBase导出数据到HDFS/OBS:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。确保用户已授权访问作业执行时操作的HBase表或phoenix表。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从HDFS/OBS导出数据到SFTP服务器:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器数据导出目录的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS/OBS导出数据时，确保HDFS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从Hive导出数据到SFTP服务器:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业中指定的Hive表的权限。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器数据导出目录的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。如果设置的任务需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从HBase导出数据到SFTP服务器:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HBase表或phoenix表。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器数据导出目录的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。如果设置的任务需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从HDFS/OBS导入数据到HBase:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。确保用户已授权访问作业执行时操作的HBase表或phoenix表。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS/OBS导入数据时，确保HDFS/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-概述:简介

简介 Loader是实现MRS与关系型数据库、文件系统之间交换数据和文件的ETL工具，支持将数据或者文件从MRS系统中导出到关系型数据库或文件系统中。 Loader支持如下数据导出方式：从HDFS/OBS中导出数据到SFTP服务器从HDFS/OBS中导出数据到关系型数据库从HBase中导出数据到SFTP服务器从HBase中导出数据到关系型数据库从Phoenix表导出数据到SFTP服务器从Phoenix表导出数据到关系型数据库从Hive中导出数据到SFTP服务器从Hive中导出数据到关系数据库从同一集群内HBase导出数据到HDFS/OBS MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器，用于配置不同类型数据源的连接参数： generic-jdbc-connector：关系型数据库连接器。 hdfs-connector：HDFS数据源连接器。 oracle-connector：Oracle数据库专用连接器，使用row_id作为分区列，相对generic-jdbc-connector来说，Map任务分区更均匀，并且不依赖区分列是否有创建索引。 mysql-fastpath-connector：MySQL数据库专用连接器，使用MySQL的mysqldump和mysqlimport工具进行数据的导入导出，相对generic-jdbc-connector来说，导入导出速度更快。 sftp-connector：SFTP数据源连接器。 oracle-partition-connector：支持Oracle分区特性的连接器，专门对Oracle分区表的导入导出进行优化。建议将SFTP服务器和数据库服务器与Loader部署在独立的子网中，以保障数据安全地导出。与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。使用oracle-connector时，要求给连接用户赋予如下系统表或者视图的select权限： dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、dba_extents、 dba_tab_partitions、dba_tab_subpartitions。使用oracle-partition-connector时，要求给连接用户赋予如下系统表的select权限：dba_objects、dba_extents。

MapReduce服务 MRS
MapReduce服务 MRS-使用Loader导入数据:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。获取外部数据源（SFTP服务器或关系型数据库）使用的用户和密码。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP、FTP和HDFS/OBS导入数据时，确保外部数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的任务需要使用指定Yarn队列功能，该用户需要已授权有相关Yarn队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从FTP服务器导入数据到HBase:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。获取FTP服务器使用的用户和密码，且该用户具备FTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从FTP服务器导入数据时，确保FTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从SFTP服务器导入数据到Hive:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业中指定的Hive表的权限。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP服务器导入数据时，确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从SFTP服务器导入数据到HDFS/OBS:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP服务器导入数据时，确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从SFTP服务器导入数据到HBase:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HBase表或phoenix表。获取SFTP服务器使用的用户和密码，且该用户具备SFTP服务器上源文件的读取权限。若源文件在导入后文件名要增加后缀，则该用户还需具备源文件的写入权限。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从SFTP服务器导入数据时，确保SFTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MapReduce服务 MRS
MapReduce服务 MRS-概述:简介

简介 Loader是实现MRS与外部数据源如关系型数据库、SFTP服务器、FTP服务器之间交换数据和文件的ETL工具，支持将数据或文件从关系型数据库或文件系统导入到MRS系统中。 Loader支持如下数据导入方式：从关系型数据库导入数据到HDFS/OBS 从关系型数据库导入数据到HBase 从关系型数据库导入数据到Phoenix表从关系型数据库导入数据到Hive表从SFTP服务器导入数据到HDFS/OBS 从SFTP服务器导入数据到HBase 从SFTP服务器导入数据到Phoenix表从SFTP服务器导入数据到Hive表从FTP服务器导入数据到HDFS/OBS 从FTP服务器导入数据到HBase 从FTP服务器导入数据到Phoenix表从FTP服务器导入数据到Hive表从同一集群内HDFS/OBS导入数据到HBase MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器，用于配置不同类型数据源的连接参数： generic-jdbc-connector：关系型数据库连接器。 ftp-connector：FTP数据源连接器。 hdfs-connector：HDFS数据源连接器。 oracle-connector：Oracle数据库专用连接器，使用row_id作为分区列，相对generic-jdbc-connector来说，Map任务分区更均匀，并且不依赖分区列是否有创建索引。 mysql-fastpath-connector：MYSQL数据库专用连接器，使用MYSQL的mysqldump和mysqlimport工具进行数据的导入导出，相对generic-jdbc-connector来说，导入导出速度更快。 sftp-connector：SFTP数据源连接器。 oracle-partition-connector：支持Oracle分区特性的连接器，专门对Oracle分区表的导入导出进行优化。使用FTP数据源连接器时不加密数据，可能存在安全风险，建议使用SFTP数据源连接器。建议将SFTP服务器、FTP服务器和数据库服务器与Loader部署在独立的子网中，以保障数据安全地导入。与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。使用oracle-connector时，要求给连接用户赋予如下系统表或者视图的select权限： dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、SYS_CONTEXT函数、dba_extents、 dba_tab_subpartitions。使用oracle-partition-connector时，要求给连接用户赋予如下系统表的select权限：dba_objects、dba_extents。

MapReduce服务 MRS
MapReduce服务 MRS-Flume第三方插件二次开发指导:操作步骤

操作步骤将自主研发的代码打成jar包。建立插件目录布局。进入$FLUME_HOME/plugins.d路径下，使用以下命令建立目录： mkdir thirdPlugin cd thirdPlugin mkdir lib libext native 显示结果如下：将第三方jar包放入$FLUME_HOME/plugins.d/thirdPlugin/lib路径下，若该jar包依赖其他jar包，则将所依赖的jar包放入$FLUME_HOME/plugins.d/thirdPlugin/libext文件夹中，$FLUME_HOME/plugins.d/thirdPlugin/native放置本地库文件。配置$FLUME_HOME/conf/properties.properties文件。具体properties.properties参数配置方法，参考非加密传输和加密传输对应典型场景中properties.properties文件参数列表的说明。 $FLUME_HOME表示Flume安装路径，配置第三方插件时，根据实际情况（服务端/客户端）指定。 thirdPlugin根据实际业务进行命名，无固定名称。

MapReduce服务 MRS
MapReduce服务 MRS-Flume日志介绍:日志级别

日志级别 Flume提供了如表2所示的日志级别。运行日志的级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别日志类型级别描述运行日志 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。如果您需要修改日志级别，请执行如下操作：请参考修改集群服务配置参数，进入Flume的“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”使配置生效。配置完成后即生效，不需要重启服务。

MapReduce服务 MRS
MapReduce服务 MRS-Flume客户端Cgroup使用指导:操作步骤

操作步骤加入Cgroup 执行以下命令，加入Cgroup，假设Flume客户端安装路径为“/opt/FlumeClient”，Cgroup cpu阈值设置为50%： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup join 50 该命令不仅可以加入Cgroup，同时也可以更改Cgroup cpu阈值。 Cgroup cpu阈值取值范围为1~100*N之间的整数，N表示机器cpu核数。查询Cgroup状态执行以下命令，查询Cgroup状态，假设Flume客户端安装路径为“/opt/FlumeClient”： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup status 退出Cgroup 执行以下命令，退出Cgroup，假设Flume客户端安装路径为“/opt/FlumeClient”： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup exit 客户端安装完成后，会自动创建默认Cgroup。若安装客户端时未配置“-s”参数，则默认值为“-1”，表示agent进程不受cpu使用率限制。加入、退出Cgroup时，agent进程不受影响。若agent进程未启动，加入、退出Cgroup仍然可以成功执行，待下一次agent启动时生效。客户端卸载完成后，安装时期创建的Cgroup会自动删除。

MapReduce服务 MRS
MapReduce服务 MRS-典型场景：从本地采集静态日志保存到HBase:操作场景

操作场景该任务指导用户使用Flume客户端从本地采集静态日志保存到HBase表：flume_test。该场景介绍的是多级agent串联操作本章节适用于MRS 3.x及之后版本。本配置默认集群网络环境是安全的，数据传输过程不需要启用SSL认证。如需使用加密方式，请参考配置加密传输。该配置可以只用一个Flume场景，例如Server：Spooldir Source+File Channel+HBase Sink。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线