华为云用户手册

MAPREDUCE服务 MRS-使用BulkLoad工具查询HBase表的行统计数:操作步骤

操作步骤直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围，字段“f3:age”的值为“25”，rowkey的前两个字符为“mi”的行数。 hbase com.huawei.hadoop.hbase.tools.bulkload.RowCounter -Dcounter.rowkey.start="row_start" -Dcounter.rowkey.stop="row_stop" -Dcounter.qualifier="f3:age:25" -Dcounter.rowkey.value="substring(0,2) == 'mi'" table1 -Dcounter.rowkey.start="row_start"：表示开始的rowkey为"row_start"。 -Dcounter.rowkey.stop="row_stop"：表示结束的rowkey为"row_stop"。 -Dcounter.qualifier="f3:age:25"：表示列族f3中列为age的列值为25。 -Dcounter.rowkey.value="substring(0,2) == 'mi'"：表示rowkey的值中前两个为mi。如果指定了“row_start”和“row_stop”，则统计的为大于等于“row_start”并且小于“row_stop”的数据。

MAPREDUCE服务 MRS 增强HBase BulkLoad工具数据迁移能力
MAPREDUCE服务 MRS-通过Hue执行HiveSQL:典型场景

典型场景通过Hue界面对Hive进行创建表的操作如下：单击Hue的WebUI界面左上角的，选择要操作的Hive实例，进入Hive命令的执行页面。在命令输入框内输入一条HQL语句，例如： create table hue_table(id int,name string,company string) row format delimited fields terminated by ',' stored as textfile; 单击执行HQL。图2 执行语句在命令输入框内输入： show tables; 单击，查看“结果”中有创建的表hue_table。图3 查看结果

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Hue执行HiveSQL:修改在Hue使用编辑器的会话配置

修改在Hue使用编辑器的会话配置在编辑器页面，单击。在“文件”的右侧单击，然后单击选择文件。可以单击“文件”后的新增加一个文件资源。在“功能” ，输入用户自定义的名称和函数的类名称。可以单击“功能”后的新增加一个自定义函数。在“设置” ，在“设置”的“键”输入Hive的参数名，在“值”输入对应的参数值，则当前Hive会话会以用户定义的配置连接Hive。可以单击新增加一个参数。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Hue执行HiveSQL:访问编辑器

访问编辑器访问Hue WebUI，请参考访问Hue WebUI界面。在左侧导航栏单击，然后选择“Hive”，进入“Hive”。 “Hive”支持以下功能：执行Hive HQL语句在左侧选中目标数据库，也可通过单击右上角的，输入目标数据库的名称以搜索目标数据库。在文本编辑框输入Hive HQL语句，单击或者按“Ctrl+Enter”，运行HQL语句，执行结果将在“结果”页签显示。分析HQL语句在左侧选中目标数据库，在文本编辑框输入Hive HQL语句，单击编译HQL语句并显示语句是否正确，执行结果将在文本编辑框下方显示。保存HQL语句在文本编辑框输入Hive HQL语句，单击右上角的，并输入名称和描述。已保存的语句可以在“保存的查询”页签查看。查看历史单击“查询历史记录”，可查看HQL运行情况，支持显示所有语句或只显示保存的语句的运行情况。历史记录存在多个结果时，可以在输入框使用关键字进行搜索。高级查询配置单击右上角的，对文件、函数、设置等信息进行配置。查看快捷键单击右上角的，可查看所有快捷键信息。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Hue执行HiveSQL:元数据浏览器使用介绍

元数据浏览器使用介绍访问Hue WebUI，请参考访问Hue WebUI界面。查看Hive表的元数据在左侧导航栏单击表，单击某一表名称，界面将显示Hive表的元数据信息。管理Hive表的元数据在Hive表的元数据信息界面：单击右上角的“导入”可导入数据。单击“概述”，在“属性”域可查看表文件的位置信息。可查看Hive表各列字段的信息，并手动添加描述信息，注意此处添加的描述信息并不是Hive表中的字段注释信息（comment）。单击“样本”可浏览数据。管理Hive元数据表单击左侧列表中的可在数据库中根据上传的文件创建一个新表，也可手动创建一个新表。 Hue界面主要用于文件、表等数据的查看与分析，禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作，建议在确认对业务没有影响后通过各组件的相应操作方法进行处理，例如使用HDFS客户端对HDFS文件进行操作，使用Hive客户端对Hive表进行操作。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Hue执行HiveSQL:执行HiveQL语句

执行HiveQL语句在“Database”右侧下拉列表选择一个Hive中的数据库，默认数据库为“default”。系统将自动显示数据库中的所有表。可以输入表名关键字，系统会自动搜索包含此关键字的全部表。单击指定的表名，可以显示表中所有的列。光标移动到表或列所在的行，单击可以查看详细信息。在HiveQL语句编辑区输入查询语句。单击开始执行HiveQL语句。图1 执行语句如果希望下次继续使用已输入的HiveQL语句，请单击保存。高级查询配置：单击右上角的，对文件、功能、设置等信息进行配置。查看快捷键：单击右上角的，可查看语法和键盘快捷方式信息。删除已输入的HiveQL语句，请单击后的三角选择“清除”。查看历史：单击“查询历史记录”，可查看HiveQL运行情况，支持显示所有语句或只显示保存的语句的运行情况。历史记录存在多个结果时，可以在输入框使用关键字进行搜索。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-快速使用Hive进行数据分析:操作步骤

操作步骤以客户端安装用户，登录安装客户端的节点，客户端安装详细操作请参见安装客户端（3.x及之后版本）。执行以下命令切换到客户端目录，客户端安装目录如：/opt/client。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建Hive表的权限，具体请参见创建角色配置拥有对应权限的角色，参考创建用户为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS集群用户例如，kinit hiveuser。运行Hive客户端命令，实现A业务。内部表操作执行以下命令登录Hive客户端命令行： beeline 根据表1创建用户信息表user_info并添加相关数据，例如： create table user_info(id string,name string,gender string,age int,addr string); insert into table user_info(id,name,gender,age,addr) values("12005000201","A","男",19,"A城市"); 在用户信息表user_info中新增用户的学历、职称信息。以增加编号为12005000201的用户的学历、职称信息为例，其他用户类似。 alter table user_info add columns(education string,technical string); 根据用户编号查询用户姓名和地址。以查询编号为12005000201的用户姓名和地址为例，其他用户类似。 select name,addr from user_info where id='12005000201'; 删除用户信息表。 drop table user_info; 执行以下命令退出Hive客户端。 !q 外部分区表操作可使用insert语句直接向外部表中插入数据，也可以使用load data命令导入HDFS中的文件数据到外部表中。如果需要使用load data命令导入文件数据，需执行以下操作：根据表1数据创建文件。例如，文件名为“txt.log”，以空格拆分字段，以换行符作为行分隔符。执行以下命令上传文件至HDFS中，例如“/tmp”目录下。 hdfs dfs -put txt.log /tmp 执行以下命令创建外部表数据存储路径： hdfs dfs -mkdir /hive/ hdfs dfs -mkdir /hive/user_info 执行以下命令登录Hive客户端命令行： beeline 执行以下命令创建表： create external table user_info(id string,name string,gender string,age int,addr string) partitioned by(year string) row format delimited fields terminated by ' ' lines terminated by '\n' stored as textfile location '/hive/user_info'; fields terminated：表示分隔的字符，如按空格分隔，' '。 lines terminated：表示分行的字符，如按换行分隔，'\n'。 /hive/user_info：存储表user_info数据的HDFS路径。导入数据。使用insert语句插入数据，以插入编号为12005000201的用户相关信息为例，其他用户类似。 insert into user_info partition(year="2018") values ("12005000201","A","男",19,"A城市"); 使用load data命令导入文件数据。 load data inpath '/tmp/txt.log' into table user_info partition (year='2011'); 其中，“/tmp/txt.log”为5.a上传至HDFS的数据文件。执行以下命令查询导入数据。 select * from user_info; 执行以下命令删除用户信息表。 drop table user_info; 执行以下命令退出Hive客户端。 !q

MAPREDUCE服务 MRS 使用Hive
MAPREDUCE服务 MRS-快速使用Hive进行数据分析:背景信息

背景信息假定用户开发一个应用程序，用于管理企业中的使用A业务的用户信息，使用Hive客户端实现A业务操作流程如下：普通表的操作：创建用户信息表user_info。在用户信息中新增用户的学历、职称信息。根据用户编号查询用户姓名和地址。 A业务结束后，删除用户信息表。表1 用户信息编号姓名性别年龄地址 12005000201 A 男 19 A城市 12005000202 B 女 23 B城市 12005000203 C 男 26 C城市 12005000204 D 男 18 D城市 12005000205 E 女 21 E城市 12005000206 F 男 32 F城市 12005000207 G 女 29 G城市 12005000208 H 女 30 H城市 12005000209 I 男 26 I城市 12005000210 J 女 25 J城市

MAPREDUCE服务 MRS 使用Hive
MAPREDUCE服务 MRS-往HDFS写数据时报错“java.net.SocketException”:问题

问题为什么在往HDFS写数据时报"java.net.SocketException: No buffer space available"异常？这个问题发生在往HDFS写文件时。查看客户端和DataNode的错误日志。客户端日志如下：图1 客户端日志 DataNode日志如下： 2017-07-24 20:43:39,269 | ERROR | DataXceiver for client DFSClient_NONMAPREDUCE_996005058_86 at /192.168.164.155:40214 [Receiving block BP-1287143557-192.168.199.6-1500707719940:blk_1074269754_528941 with io weight 10] | DataNode{data=FSDataset{dirpath='[/srv/BigData/hadoop/data1/dn/current, /srv/BigData/hadoop/data2/dn/current, /srv/BigData/hadoop/data3/dn/current, /srv/BigData/hadoop/data4/dn/current, /srv/BigData/hadoop/data5/dn/current, /srv/BigData/hadoop/data6/dn/current, /srv/BigData/hadoop/data7/dn/current]'}, localName='192-168-164-155:9866', datanodeUuid='a013e29c-4e72-400c-bc7b-bbbf0799604c', xmitsInProgress=0}:Exception transfering block BP-1287143557-192.168.199.6-1500707719940:blk_1074269754_528941 to mirror 192.168.202.99:9866: java.net.SocketException: No buffer space available | DataXceiver.java:870 2017-07-24 20:43:39,269 | INFO | DataXceiver for client DFSClient_NONMAPREDUCE_996005058_86 at /192.168.164.155:40214 [Receiving block BP-1287143557-192.168.199.6-1500707719940:blk_1074269754_528941 with io weight 10] | opWriteBlock BP-1287143557-192.168.199.6-1500707719940:blk_1074269754_528941 received exception java.net.SocketException: No buffer space available | DataXceiver.java:933 2017-07-24 20:43:39,270 | ERROR | DataXceiver for client DFSClient_NONMAPREDUCE_996005058_86 at /192.168.164.155:40214 [Receiving block BP-1287143557-192.168.199.6-1500707719940:blk_1074269754_528941 with io weight 10] | 192-168-164-155:9866:DataXceiver error processing WRITE_BLOCK operation src: /192.168.164.155:40214 dst: /192.168.164.155:9866 | DataXceiver.java:304 java.net.SocketException: No buffer space available at sun.nio.ch.Net.connect0(Native Method) at sun.nio.ch.Net.connect(Net.java:454) at sun.nio.ch.Net.connect(Net.java:446) at sun.nio.ch.SocketChannelImpl.connect(SocketChannelImpl.java:648) at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:192) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531) at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.writeBlock(DataXceiver.java:800) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.opWriteBlock(Receiver.java:138) at org.apache.hadoop.hdfs.protocol.datatransfer.Receiver.processOp(Receiver.java:74) at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:265) at java.lang.Thread.run(Thread.java:748)

MAPREDUCE服务 MRS HDFS故障排除
MAPREDUCE服务 MRS-配置HetuEngine SQL诊断功能:操作场景

操作场景 HetuEngine QAS实例可对用户的SQL执行历史记录提供自动感知、自动学习、自动诊断服务，提升在线SQL运维能力，自动加速在线SQL分析任务，开启SQL诊断能力后，系统可实现如下能力：自动感知并向集群管理员展现不同时间周期范围内的租户级、用户级的SQL任务统计，帮助集群管理员快速预判业务运行状态和潜在风险。自动诊断出大SQL、慢SQL及相关提交信息，面向集群管理员多维度可视化呈现，同时提供大SQL、慢SQL的诊断与优化建议。

MAPREDUCE服务 MRS 使用HetuEngine
MAPREDUCE服务 MRS-Oozie作业执行失败常用排查手段

Oozie作业执行失败常用排查手段根据任务在Yarn上的任务日志排查，首先把实际的运行任务，比如Hive SQL通过beeline运行一遍，确认Hive无问题。出现“classnotfoundException”等报错，排查“/user/oozie/share/lib”路径下各组件有没有报错的类的Jar包，如果没有，添加Jar包并执行HDFS上更新了Oozie的share lib目录但没有生效。如果执行了更新“share lib”目录依然报找不到类，那么可以查看执行更新“share lib”的命令打印出来的路径“sharelibDirNew”是否是“ /user/oozie/share/lib”，一定不能是其它目录。出现NosuchMethodError，排查“/user/oozie/share/lib”路径下各组件的Jar包是不是有多个版本，注意业务本身上传的Jar包冲突，可通过Oozie在Yarn上的运行日志打印的加载的Jar包排查是否有Jar包冲突。自研代码运行异常，可以先运行Oozie的自带样例，排除Oozie自身的异常。寻求技术人员的支持，需要收集Yarn上Oozie任务运行日志、Oozie自身的日志及组件的运行的日志，例如使用Oozie运行Hive报异常，需收集Hive的日志。父主题： Oozie常见问题

MAPREDUCE服务 MRS Oozie常见问题
MAPREDUCE服务 MRS-查看Ranger审计信息:查看Ranger审计信息内容

查看Ranger审计信息内容使用Ranger管理员用户rangeradmin登录Ranger管理页面，具体操作可参考登录Ranger WebUI界面。单击“Audit”，查看相关审计信息，各页签内容说明请参考表1，条目较多时，单击搜索框可根据关键字字段进行筛选。表1 Audit信息页签内容描述 Access 当前MRS不支持在线查看组件资源的审计日志信息，可登录组件安装节点，进入“/var/log/Bigdata/audit”目录下查看各组件的审计日志。 Admin Ranger上操作审计信息，例如安全访问策略的创建/更新/删除、组件权限策略的创建/删除、role的创建/更新/删除等。 Login Sessions 登录Ranger的用户会话审计信息。 Plugins Ranger内组件权限策略信息。 Plugin Status 各组件节点权限策略的同步审计信息。 User Sync Ranger与LDAP用户同步审计信息。

MAPREDUCE服务 MRS 使用Ranger
MAPREDUCE服务 MRS-使用Broker Load方式导入数据至Doris:前提条件

前提条件已创建包含Doris服务的集群，集群内各服务运行正常。待连接Doris数据库的节点与MRS集群网络互通。创建具有Doris管理权限的用户。集群已启用Kerberos认证（安全模式）在FusionInsight Manager中创建一个人机用户，例如“dorisuser”，创建一个拥有“Doris管理员权限”的角色绑定给该用户。使用新建的用户dorisuser重新登录FusionInsight Manager，修改该用户初始密码。集群未启用Kerberos认证（普通模式）使用admin用户连接Doris后，创建具有管理员权限的角色并绑定给用户。已安装MySQL客户端，相关操作可参考使用MySQL客户端连接Doris。 Doris中已安装并启动DBroker实例。已安装Hive客户端。如果Doris通过Broker Load跨集群导入数据，需要配置跨集群互信，相关操作可参考配置跨Manager集群互信。

MAPREDUCE服务 MRS Doris数据导入
MAPREDUCE服务 MRS-创建Hive角色:操作场景

操作场景该任务指导MRS集群管理员在Manager创建并设置Hive的角色。Hive角色可设置Hive管理员权限以及Hive数据表的数据操作权限。用户使用Hive并创建数据库需要加入hive组，不需要角色授权。用户在Hive和HDFS中对自己创建的数据库或表拥有完整权限，可直接创建表、查询数据、删除数据、插入数据、更新数据以及授权他人访问表与对应HDFS目录与文件。默认创建的数据库或表保存在HDFS目录“/user/hive/warehouse”。安全模式支持创建Hive角色，普通模式不支持创建Hive角色。如果当前组件使用了Ranger进行权限控制，须基于Ranger配置相关策略进行权限管理，具体操作可参考添加Hive的Ranger访问权限策略。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-使用Yarn客户端提交任务:使用Yarn客户端

使用Yarn客户端安装客户端，具体请参考安装MRS客户端。以客户端安装用户，登录安装客户端的节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户直接执行Yarn命令。例如： yarn application -list

MAPREDUCE服务 MRS 使用Yarn
MAPREDUCE服务 MRS-Loader算子说明:转换流程

转换流程 Loader读取源端数据，通过输入算子将数据按规则逐一转换成字段，再通过转换算子，对这些字段做清洗或转换，最后通过输出算子将处理后的字段，输出到目标端。每个作业，如果进行数据转换操作，有且只能有一个输入算子，有且只能有一个输出算子。不符合转换规则的数据，将成为脏数据跳过。从关系型数据库导入数据到HDFS/OBS，可以不用配置数据转换，数据将按“,”分隔保存到HDFS/OBS。从HDFS/OBS导出数据到关系型数据库，可以不用配置数据转换，数据将按“,”分隔保存到关系型数据库。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Loader算子说明:算子简介

算子简介 Loader算子包括以下类型：输入算子数据转换的第一步，负责将数据转换成字段，每次转换有且只能有一种输入算子，涉及HBase或Hive导入导出时，必须填写。转换算子数据转换的中间转换步骤，属于可选类型，各个转换算子可任意搭配使用。转换算子是针对字段而言，必须先使用输入算子，将数据转换成字段。输出算子数据转换的最后一步，每次转换有且只能有一种输出算子，用于输出处理后的字段。涉及HBase或Hive导入导出时，必须填写。表1 算子分类一览表类型描述输入 CSV文件输入：将文件的每一行按指定分隔符转换成多个输入字段。固定宽度文件输入：将文件的每一行，按可配置长度的字符或字节，转换成多个输入字段。表输入：将关系型数据库表的指定列按顺序转换成同等数量的输入字段。 HBase输入：将HBase表的指定列转换成同等数量的输入字段。 HTML输入：将HTML文件中的元素转换成输入字段。 Hive输入：将Hive表的指定列转换成同等数量的输入字段。转换长整型时间转换：实现长整型数值与日期类型的互换。空值转换：将空值替换成指定值。增加常量字段：生成常量字段。随机值转换：生成随机数字段。拼接转换：拼接已有字段，生成新字段。分隔转换：将已有字段，按指定分隔符，分隔出新字段。取模转换：对已有字段取模，生成新字段。剪切字符串：通过指定起始位置，截取已有字符串类型的字段，生成新字段。 EL操作转换：指定算法，对字段值进行运算，目前支持的算法有：md5sum、sha1sum、sha256sum和sha512sum等。字符串大小写转换：对已有的字符串类型字段，切换大小写，生成新字段。字符串逆序转换：对已有的字符串类型字段，做逆序变换，生成新字段。字符串空格清除转换：对已有的字符串类型字段，清除左右空格，生成新字段。过滤行转换：配置逻辑条件过滤掉含触发条件的行。更新域：当满足某些条件时，更新字段的值。输出 Hive输出：将已生成的字段输出到Hive表。表输出：将已生成的字段输出到关系型数据库表。文件输出：将已生成的字段通过分隔符连接并输出到文件。 HBase输出：将已生成的字段输出到HBase表。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Flume日志介绍:日志级别

日志级别 Flume提供了如表2所示的日志级别。运行日志的级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别日志类型级别描述运行日志 FATAL FATAL表示系统运行的致命错误信息。 ERROR ERROR表示系统运行的错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。如果您需要修改日志级别，请执行如下操作：请参考修改集群服务配置参数，进入Flume的“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”使配置生效。配置完成后即生效，不需要重启服务。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HBase输出:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 HBase表类型配置HBase表类型，可选项为normal（普通HBase表）和phoenix表。 enum 是 normal NULL值处理方式配置NULL值处理方式。选中单选框时是将转换为空字符串并保存。不选中单选框时是不保存数据。 boolean 否不选中单选框 HBase输出字段配置HBase输出信息：字段名：配置输出字段的字段名。表名：配置HBase表名。列族名：配置HBase列族名，如果HBase/Phoenix建表时未配置列族名，默认列族名为 '0'。列名：配置HBase列名。类型：配置字段类型，字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。主键：配置是否为主键列。普通HBase表主键只能指定一个；phoenix表主键可以指定多个，配置多个列为主键时，会按照配置列的先后顺序对其进行拼接。必需配置一个主键列。 map 是无

MAPREDUCE服务 MRS Loader输出类算子
MAPREDUCE服务 MRS-配置DBService备份任务超时时间:操作步骤

操作步骤以omm用户登录集群主OMS节点，修改配置文件“${CONTROLLER_HOME}/etc/om/controller.properties”中参数“controller.backup.conf.script.execute.timeout”值为“10000000”（根据当前集群中的DBService数据量调大超时时间）。以omm用户登录集群备OMS节点，重复执行1。以omm用户登录主OMS节点，执行以下命令查询BackupRecoveryPluginProcess进程id，并结束此进程。 jps|grep -i BackupRecoveryPluginProcess kill -9 查询到的PID 登录到Manager页面重新执行DBService备份任务。执行以下命令查看BackupRecoveryPluginProcess进程是否已开启。 jps|grep -i BackupRecoveryPluginProcess

MAPREDUCE服务 MRS 使用DBService
MAPREDUCE服务 MRS-提升HBase实时读数据效率:操作步骤

操作步骤读数据服务端调优参数入口：进入HBase服务参数“全部配置”界面，具体操作请参考修改集群服务配置参数章节。表1 影响实时读数据配置项配置参数描述默认值 GC_OPTS HBase利用内存完成读写操作。提高HBase内存可以有效提高HBase性能。 GC_OPTS主要需要调整HeapSize的大小和NewSize的大小。调整HeapSize大小的时候，建议将Xms和Xmx设置成相同的值，这样可以避免JVM动态调整HeapSize大小的时候影响性能。调整NewSize大小的时候，建议把其设置为HeapSize大小的1/8。 HMaster：当HBase集群规模越大、Region数量越多时，可以适当调大HMaster的GC_OPTS参数。 RegionServer：RegionServer需要的内存一般比HMaster要大。在内存充足的情况下，HeapSize可以相对设置大一些。说明：主HMaster的HeapSize为4G的时候，HBase集群可以支持100000 region数的规模。根据经验值，集群每增加35000个region，HeapSize增加2G，主HMaster的HeapSize不建议超过32GB。 HMaster -server -Xms4G -Xmx4G -XX:NewSize=512M -XX:MaxNewSize=512M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=512M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M Region Server -server -Xms6G -Xmx6G -XX:NewSize=1024M -XX:MaxNewSize=1024M -XX:MetaspaceSize=128M -XX:MaxMetaspaceSize=512M -XX:+UseConcMarkSweepGC -XX:+CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=65 -XX:+PrintGCDetails -Dsun.rmi.dgc.client.gcInterval=0x7FFFFFFFFFFFFFE -Dsun.rmi.dgc.server.gcInterval=0x7FFFFFFFFFFFFFE -XX:-OmitStackTraceInFastThrow -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M hbase.regionserver.handler.count 表示RegionServer在同一时刻能够并发处理多少请求。如果设置过高会导致激烈线程竞争，如果设置过小，请求将会在RegionServer长时间等待，降低处理能力。根据资源情况，适当增加处理线程数。建议根据CPU的使用情况，可以选择设置为100至300之间的值。 200 hfile.block.cache.size HBase缓存区大小，主要影响查询性能。根据查询模式以及查询记录分布情况来决定缓存区的大小。如果采用随机查询使得缓存区的命中率较低，可以适当降低缓存区大小。当offheap关闭时，默认值为0.25。当offheap开启时，默认值是0.1。如果同时存在读和写的操作，这两种操作的性能会互相影响。如果写入导致的flush和Compaction操作频繁发生，会占用大量的磁盘IO操作，从而影响读取的性能。如果写入导致阻塞较多的Compaction操作，就会出现Region中存在多个HFile的情况，从而影响读取的性能。所以如果读取的性能不理想的时候，也要考虑写入的配置是否合理。读数据客户端调优 Scan数据时需要设置caching（一次从服务端读取的记录条数，默认是1），如果使用默认值读性能会降到极低。当不需要读一条数据所有的列时，需要指定读取的列，以减少网络IO。只读取RowKey时，可以为Scan添加一个只读取RowKey的filter（FirstKeyOnlyFilter或KeyOnlyFilter）。读数据表设计调优表2 影响实时读数据相关参数配置参数描述默认值 COMPRESSION 配置数据的压缩算法，这里的压缩是HFile中block级别的压缩。对于可以压缩的数据，配置压缩算法可以有效减少磁盘的IO，从而达到提高性能的目的。说明：并非所有数据都可以进行有效压缩。例如一张图片的数据，因为图片一般已经是压缩后的数据，所以压缩效果有限。常用的压缩算法是SNAPPY，因为它有较好的Encoding/Decoding速度和可以接受的压缩率。 NONE BLOCKSIZE 配置HFile中block块的大小，不同的block块大小，可以影响HBase读写数据的效率。越大的block块，配合压缩算法，压缩的效率就越好；但是由于HBase的读取数据是以block块为单位的，所以越大的block块，对于随机读的情况，性能可能会比较差。如果要提升写入的性能，一般扩大到128KB或者256KB，可以提升写数据的效率，也不会影响太大的随机读性能。单位：字节。 65536 DATA_BLOCK_ENCODING 配置HFile中block块的编码方法。当一行数据中存在多列时，一般可以配置为“FAST_DIFF”，可以有效的节省数据存储的空间，从而提供性能。 NONE

MAPREDUCE服务 MRS HBase性能调优
MAPREDUCE服务 MRS-HBase客户端使用实践:前提条件

前提条件已安装客户端。例如安装目录为“/opt/hadoopclient”，以下操作的客户端目录只是举例，请根据实际安装目录修改。各组件业务用户由MRS集群管理员根据业务需要创建。 “机机”用户需要下载keytab文件，“人机”用户第一次登录时需修改密码。非root用户使用HBase客户端，请确保该HBase客户端目录的属主为该用户，否则请参考如下命令修改属主。 chown user:group -R 客户端安装目录/HBase

MAPREDUCE服务 MRS 使用HBase
MAPREDUCE服务 MRS-HBase客户端使用实践:使用HBase客户端

使用HBase客户端安装客户端，具体请参考安装客户端章节。以客户端安装用户，登录安装客户端的节点。执行以下命令切换到客户端目录。 cd /opt/hadoopclient 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建HBase表的权限，具体请参见角色管理配置拥有对应权限的角色，参考创建用户章节，为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit 组件业务用户例如，kinit hbaseuser。直接执行HBase组件的客户端命令。 hbase shell

MAPREDUCE服务 MRS 使用HBase
MAPREDUCE服务 MRS-基于全局二级索引查询HBase表数据:基于索引查询

基于索引查询在具有索引的用户表中，可以使用SingleColumnValueFilter来查询数据。当查询条件可以命中索引时，查询速度远快于原表查询。索引的命中规则如下：多个AND条件查询当用于查询的列至少包含索引第一个列时，使用索引会提高查询性能。例如，为C1、C2和C3创建组合索引。该索引在以下情况下生效： Filter_Condition（IndexCol1）AND Filter_Condition（IndexCol2）AND Filter_Condition（IndexCol3） Filter_Condition（IndexCol1）AND Filter_Condition（IndexCol2） Filter_Condition（IndexCol1）AND Filter_Condition（IndexCol3） Filter_Condition（IndexCol1）该索引在下列情况下不生效： Filter_Condition（IndexCol2）AND Filter_Condition（IndexCol3） Filter_Condition（IndexCol2） Filter_Condition（IndexCol3）当在查询中使用“索引列和非索引列”进行过滤时，使用索引可提高查询性能。当非索引列命中覆盖列时，查询性能最优；如果有需经常查询的非索引列，建议定义为覆盖列。例如： Filter_Condition（IndexCol1）AND Filter_Condition（NonIndexCol1） Filter_Condition（IndexCol1）AND Filter_Condition（IndexCol2）AND Filter_Condition（NonIndexCol1）当多个列用于查询时，只能为组合索引中的最后一列指定值范围，而其他列只能设置为指定值。例如，为C1、C2和C3创建组合索引。在范围查询中，只能为C3设置数值范围，过滤条件为“C1 = XXX，C2 = XXX，C3 = 数值范围”。多个OR条件查询例如，为C1、C2和C3创建组合索引。仅对索引列首个字段进行过滤时（支持范围过滤），使用索引可提高查询性能。 Filter_Condition（IndexCol1）OR Filter_Condition（IndexCol1）OR Filter_Condition（IndexCol1）对非索引和非索引列进行过滤时，无法命中索引，查询性能不会提高。 Filter_Condition（IndexCol1）OR Filter_Condition（NonIndexCol1）组合查询时，最外层包含OR条件时无法命中索引，查询性能不会提高。 Filter_Condition（IndexCol1）OR Filter_Condition（NonIndexCol1）（Filter_Condition（IndexCol1）AND Filter_Condition（IndexCol2)）OR（Filter_Condition（NonIndexCol1)）减少OR条件使用，尤其是OR条件+范围条件，命中索引的情况下也会造成大范围查询，速度较慢。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-降低MapReduce客户端运行任务的失败率:配置描述

配置描述在客户端的“mapred-site.xml”配置文件中调整如下参数。 “mapred-site.xml”配置文件在客户端安装路径的conf目录下，例如“/opt/client/Yarn/config”。表1 参数说明参数描述默认值 mapreduce.reduce.shuffle.max-host-failures MR任务在reduce过程中读取远端shuffle数据允许失败的次数。当设置次数大于5时，可以降低客户端应用的失败率。 5 mapreduce.client.submit.file.replication MR任务在运行时依赖的相关job文件在HDFS上的备份。当备份数大于10时，可以降低客户端应用的失败率。 10

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-配置Spark Executor退出时执行自定义代码:配置参数

配置参数在Spark客户端的“spark-defaults.conf”配置文件中进行设置。参数说明默认值 spark.executor.execute.shutdown.cleaner 配置为true后，支持executor退出时执行自定义代码。 false spark.executor.execute.shutdown.cleaner.max.timeout executor执行自定义代码的超时时间。 240s

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-安装Flume客户端:Flume客户端Cgroup使用指导

Flume客户端Cgroup使用指导该操作指导用户加入、退出Cgroup，查询Cgroup状态以及更改Cgroup cpu阈值。加入Cgroup 执行以下命令，加入Cgroup，假设Flume客户端安装路径为“/opt/FlumeClient”，Cgroup cpu阈值设置为50%： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup join 50 该命令不仅可以加入Cgroup，同时也可以更改Cgroup cpu阈值。 Cgroup cpu阈值取值范围为1~100*N之间的整数，N表示机器cpu核数。查询Cgroup状态执行以下命令，查询Cgroup状态，假设Flume客户端安装路径为“/opt/FlumeClient”： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup status 退出Cgroup 执行以下命令，退出Cgroup，假设Flume客户端安装路径为“/opt/FlumeClient”： cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin ./flume-manage.sh cgroup exit 客户端安装完成后，会自动创建默认Cgroup。如果安装客户端时未配置“-s”参数，则默认值为“-1”，表示agent进程不受cpu使用率限制。加入、退出Cgroup时，agent进程不受影响。如果agent进程未启动，加入、退出Cgroup仍然可以成功执行，待下一次agent启动时生效。客户端卸载完成后，安装时期创建的Cgroup会自动删除。

MAPREDUCE服务 MRS 使用Flume
MAPREDUCE服务 MRS-使用HBase BulkLoad导入数据成功，执行相同的查询时却返回不同的结果:回答

回答正常情况下，相同rowkey值的数据加载到HBase是有先后顺序的，HBase以最近的时间戳的数据为最新数据，一般的默认查询中，没有指定时间戳的，就会对相同rowkey值的数据仅返回最新数据。使用bulkload加载数据，由于数据在内存中处理生成HFile，速度是很快的，很可能出现相同rowkey值的数据具有相同时间戳，从而造成查询结果混乱的情况。建议在建表和数据加载时，设计好rowkey值，尽量避免在同一个数据文件中存在相同rowkey值的情况。

MAPREDUCE服务 MRS HBase故障排除
MAPREDUCE服务 MRS-停止或卸载Flume客户端:操作步骤

操作步骤停止Flume角色的客户端。假设Flume客户端安装路径为“/opt/FlumeClient”，执行以下命令，停止Flume客户端： cd /opt/FlumeClient/fusioninsight-flume-Flume组件版本号/bin ./flume-manage.sh stop 执行脚本后，显示如下信息，说明成功的停止了Flume客户端： Stop Flume PID=120689 successful.. Flume客户端停止后会自动重启，如果不需自动重启，请执行以下命令： ./flume-manage.sh stop force 需要启动时，可执行以下命令： ./flume-manage.sh start force 卸载Flume角色的客户端。假设Flume客户端安装路径为“/opt/FlumeClient”，执行以下命令，卸载Flume客户端： cd /opt/FlumeClient/fusioninsight-flume-Flume组件版本号/inst ./uninstall.sh

MAPREDUCE服务 MRS Flume运维管理
MAPREDUCE服务 MRS-配置MapReduce集群管理员列表:配置描述

配置描述进入Mapreduce服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。表1 参数描述参数描述默认值 mapreduce.cluster.acls.enabled 是否开启对Job History Server 权限控制的开关。 true mapreduce.cluster.administrators 用于指定MapReduce集群管理员列表，可以配置用户和用户组，用户或者用户组之间用逗号间隔，用户和用户组之间用空格间隔，举例：userA,userB groupA,groupB。当配置为*时表示所有用户或用户组。 mapred supergroup,System_administrator_186

MAPREDUCE服务 MRS 使用MapReduce

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线