华为云用户手册

MapReduce服务 MRS-客户端查询HBase出现SocketTimeoutException异常:问题

问题使用HBase客户端操作表数据的时候客户端出现类似如下异常： 2015-12-15 02:41:14,054 | WARN | [task-result-getter-2] | Lost task 2.0 in stage 58.0 (TID 3288, linux-175): org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue Dec 15 02:41:14 CST 2015, null, java.net.SocketTimeoutException: callTimeout=60000, callDuration=60303: row 'xxxxxx' on table 'xxxxxx' at region=xxxxxx,\x05\x1E\x80\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x00\x80\x00\x00\x00\x00\x00\x00\x000\x00\x80\x00\x00\x00\x80\x00\x00\x00\x80\x00\x00,1449912620868.6a6b7d0c272803d8186930a3bfdb10a9., hostname=xxxxxx,16020,1449941841479, seqNum=5at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.throwEnrichedException(RpcRetryingCallerWithReadReplicas.java:275)at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:223)at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas.call(ScannerCallableWithReplicas.java:61)at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:200)at org.apache.hadoop.hbase.client.ClientScanner.call(ClientScanner.java:323)

MapReduce服务 MRS
MapReduce服务 MRS-在启动HBase shell时，为什么会抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常:回答

回答在执行HBase shell期间，JRuby会在“java.io.tmpdir”路径下创建一个临时文件，该路径的默认值为“/tmp”。如果为“/tmp”目录设置NOEXEC权限，然后HBase shell会启动失败并抛出“java.lang.UnsatisfiedLinkError: Permission denied”异常。因此，如果为“/tmp”目录设置了NOEXEC权限，那么“java.io.tmpdir”必须设置为HBASE_OPTS/CLIENT_GC_OPTS中不同的路径。

MapReduce服务 MRS
MapReduce服务 MRS-HBase占用网络端口，连接数过大会导致其他服务不稳定:回答

回答使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态，且连接持有者为HBase RegionServer，可能导致网络端口耗尽或HDFS连接超限，那样可能会导致其他服务不稳定。HBase CLOSE_WAIT现象为HBase机制。 HBase CLOSE_WAIT产生原因：HBase数据以HFile形式存储在HDFS上，这里可以叫StoreFiles，HBase作为HDFS的客户端，HBase在创建StoreFile或启动加载StoreFile时创建了HDFS连接，当创建StoreFile或加载StoreFile完成时，HDFS方面认为任务已完成，将连接关闭权交给HBase，但HBase为了保证实时响应，有请求时就可以连接对应数据文件，需要保持连接，选择不关闭连接，所以连接状态为CLOSE_WAIT（需客户端关闭）。什么时候会创建StoreFile：当HBase执行Flush时。什么时候执行Flush：HBase写入数据首先会存在内存memstore，只有内存使用达到阈值或手动执行flush命令时会触发flush操作，将数据写入HDFS。解决方法：由于HBase连接机制，若想减小HBase端口占用，则需控制StoreFile数量，具体可以通过触发HBase的compaction动作完成，即触发HBase文件合并，方法如下：方法1：使用HBase shell客户端，在客户端手动执行major_compact操作。方法2：编写HBase客户端代码，调用HBaseAdmin类中的compact方法触发HBase的compaction动作。如果compact无法解决HBase端口占用现象，说明HBase使用情况已经达到瓶颈，需考虑如下几点： table的Region数初始设置是否合适。是否存在无用数据。若存在无用数据，可删除对应数据以减小HBase存储文件数量，若以上情况都不满足，则需考虑扩容。

MapReduce服务 MRS
MapReduce服务 MRS-使用HBase bulkload导入数据成功，执行相同的查询时却可能返回不同的结果:回答

回答正常情况下，相同rowkey值的数据加载到HBase是有先后顺序的，HBase以最近的时间戳的数据为最新数据，一般的默认查询中，没有指定时间戳的，就会对相同rowkey值的数据仅返回最新数据。使用bulkload加载数据，由于数据在内存中处理生成HFile，速度是很快的，很可能出现相同rowkey值的数据具有相同时间戳，从而造成查询结果混乱的情况。建议在建表和数据加载时，设计好rowkey值，尽量避免在同一个数据文件中存在相同rowkey值的情况。

MapReduce服务 MRS
MapReduce服务 MRS-客户端连接服务端时，长时间无法连接成功:回答

回答问题分析当HBase服务端出现问题，HBase客户端进行表操作的时候，会进行重试，并等待超时。该超时默认值为Integer.MAX_VALUE (2147483647 ms)，所以HBase客户端会在这么长的时间内一直重试，造成挂起表象。解决方法 HBase客户端提供两个配置项来控制客户端的重试超时方式，如表1。在“客户端安装路径/HBase/hbase/conf/hbase-site.xml”配置文件中配置如下参数。表1 HBase客户端操作重试超时相关配置配置参数描述默认值 hbase.client.operation.timeout 客户端操作超时时间。需在配置文件中手动添加。 2147483647 ms hbase.client.retries.number 最大重试次数。用于表示所有可重试操作所支持的最大重试次数。 35 这两个参数的重试超时的配合方式如图1所示。图1 HBase客户端操作重试超时流程从该流程可以看出，如果未对这两个配置参数根据具体使用场景进行配置，会造成挂起迹象。建议根据使用场景，配置合适的超时时间，如果是长时间操作，则把超时时间设置长一点；如果是短时间操作，则把超时时间设置短一点。而重试次数可以设置为：“(hbase.client.retries.number)*60*1000(ms)”。刚好大于“hbase.client.operation.timeout”设置的超时时间。

MapReduce服务 MRS
MapReduce服务 MRS-HMaster等待namespace表上线时超时退出:回答

回答在HMaster主备倒换或启动期间，HMaster为先前失败/停用的RegionServer执行WAL splitting及region恢复。在后台运行有多个监控HMaster启动进程的线程： TableNamespaceManager 这是一个帮助类，用于在HMaster主备倒换或启动期间，管理namespace表及监控表region的分配。如果namespace表在规定时间（hbase.master.namespace.init.timeout，默认为3600000ms）内没有上线，那么它就会异常中断HMaster进程。 InitializationMonitor 这是一个主HMaster初始化线程监控类，用于监控主Master的初始化。如果在规定时间（hbase.master.initializationmonitor.timeout，默认为3600000ms）内初始化线程失败，该线程会异常终止HMaster（如果该hbase.master.initializationmonitor.haltontimeout被启动，默认为false）。在HMaster主备倒换或启动期间，如果WAL hlog文件存在，它会初始化WAL splitting任务。如果WAL hlog splitting任务完成，它将初始化表region分配任务。 HMaster通过ZooKeeper协调log splitting任务和有效的RegionServer，并追踪任务的发展。如果主HMaster在log splitting任务期间退出，新的主HMaster会尝试重发没有完成的任务，RegionServer从头启动log splitting任务。 HMaster初始化工作完成情况会由于很多原因被延迟：间歇性的网络故障。磁盘瓶颈。 log split任务工作负荷较大，RegionServer运行缓慢。 RegionServer（region openning）响应缓慢。在以上场景中，为使HMaster更早完成恢复任务，建议增加以下配置参数，否则Master将退出导致整个恢复进程被更大程度地延迟。增加namespace表在线等待超时周期，保证Master有足够的时间协调RegionServer workers split任务，避免一次次重复相同的任务。 “hbase.master.namespace.init.timeout”（默认为3600000ms）通过RegionServer worker增加并行split任务执行数，保证RegionServer worker能并行处理split work（RegionServer需要有更多的核心）。在“客户端安装路径/HBase/hbase/conf/hbase-site.xml”中添加参数： “hbase.regionserver.wal.max.splitters”（默认为2）如果所有的恢复过程都需要时间，增加初始化监控线程超时时间。 “hbase.master.initializationmonitor.timeout”（默认为3600000ms）

MapReduce服务 MRS
MapReduce服务 MRS-如何修复长时间处于RIT状态的Region:回答

回答登录HMaster WebUI，在导航栏选择“Procedure & Locks”，查看是否有处于Waiting状态的process id。如果有，需要执行以下命令将procedure lock释放： hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar bypass -o pid 查看State是否处于Bypass状态，如果界面上的procedures一直处于RUNNABLE(Bypass)状态，需要进行主备切换。执行assigns命令使region重新上线。 hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar assigns -o regionName

MapReduce服务 MRS
MapReduce服务 MRS-HBase bulkload任务（单个表有26T数据）有210000个map和10000个reduce，任务失败:回答

回答 ZooKeeper IO瓶颈观测手段：通过Manager的监控页面查看单个节点上ZooKeeper请求监控，判断是否严重超出规格限制。通过观测ZooKeeper的日志以及HBase的日志，查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。调优建议：将ZooKeeper实例个数调整为5个及以上，可以通过设置peerType=observer来增加observer的数目。通过控制单个任务并发的map数或减少每个节点下运行task的内存，降低节点负载。升级ZooKeeper数据磁盘，如SSD等。

MapReduce服务 MRS
MapReduce服务 MRS-提升BulkLoad效率:操作步骤

操作步骤参数入口：执行批量加载任务时，在BulkLoad命令行中加入如下参数。表1 增强BulkLoad效率的配置项参数描述配置的值 -Dimporttsv.mapper.class 用户自定义mapper通过把键值对的构造从mapper移动到reducer以帮助提高性能。mapper只需要把每一行的原始文本发送给reducer，reducer解析每一行的每一条记录并创建键值对。说明：当该值配置为“org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper”时，只在执行没有HBASE_CELL_VISIBILITY OR HBASE_CELL_TTL选项的批量加载命令时使用。使用“org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper”时可以得到更好的性能。 org.apache.hadoop.hbase.mapreduce.TsvImporterByteMapper 和 org.apache.hadoop.hbase.mapreduce.TsvImporterTextMapper

MapReduce服务 MRS
MapReduce服务 MRS-提升连续put场景性能:操作场景

操作场景对大批量、连续put的场景，配置下面的两个参数为“false”时能大量提升性能。 “hbase.regionserver.wal.durable.sync” “hbase.regionserver.hfile.durable.sync” 当提升性能时，缺点是对于DataNode（默认是3个）同时故障时，存在小概率数据丢失的现象。对数据可靠性要求高的场景请慎重配置。本章节适用于MRS 3.x及之后版本。

MapReduce服务 MRS
MapReduce服务 MRS-结束BulkLoad客户端程序，导致作业执行失败:回答

回答 BulkLoad程序在客户端启动时会生成一个partitioner文件，用于划分Map任务数据输入的范围。此文件在BulkLoad客户端退出时会被自动删除。一般来说当所有Map任务都启动运行以后，退出BulkLoad客户端也不会导致已提交的作业失败。但由于Map任务存在重试机制和推测执行机制；Reduce任务下载一个已运行完成的Map任务的数据失败次数过多时，Map任务也会被重新执行。如果此时BulkLoad客户端已经退出，则重试的Map任务会因为找不到partitioner文件而执行失败，导致作业执行失败。因此，强烈建议BulkLoad程序在数据导入期间不要结束客户端程序。

MapReduce服务 MRS
MapReduce服务 MRS-配置MOB:配置场景

配置场景在实际应用中，需要存储大大小小的数据，比如图像数据、文档。小于10MB的数据一般都可以存储在HBase上，对于小于100KB的数据，HBase的读写性能是更优的。如果存放在HBase的数据大于100KB甚至到10MB大小时，插入同样个数的数据文件，但是总的数据量会很大，会导致频繁的compaction和split，占用很多CPU，磁盘IO频率很高，性能严重下降。通过将MOB（Medium-sized Objects）数据（即100KB到10MB大小的数据）直接以HFile的格式存储在文件系统上（例如HDFS文件系统），通过expiredMobFileCleaner和Sweeper工具集中管理这些文件，然后把这些文件的地址信息及大小信息作为value存储在普通HBase的store上。这样就可以大大降低HBase的compaction和split频率，提升性能。 HBase当前默认开启MOB功能，相关配置项如表1所示。如果需要使用MOB功能，用户需要在创建表或者修改表属性时在指定的列族上指定使用mob方式存储数据。本章节适用于MRS 3.x及之后版本。

MapReduce服务 MRS
MapReduce服务 MRS-批量导入数据:操作场景

操作场景您可以按照自定义的方式，通过命令批量导入数据到HBase中。您可以在“configuration.xml”文件中定义多个方式来批量导入数据。导入数据时可不创建索引。列的名称不能包含特殊字符，只能由字母、数字和下划线组成。大任务下MR任务运行失败，请参考MapReduce任务运行失败，ApplicationMaster出现物理内存溢出异常进行处理。 BulkLoad支持的数据源格式为带分隔符的文本文件。已安装客户端。例如安装目录为“/opt/hadoopclient”，以下操作的客户端目录只是举例，请根据实际安装目录修改。

MapReduce服务 MRS
MapReduce服务 MRS-获取行统计数:操作步骤

操作步骤直接执行如下命令统计满足如下条件的行数。rowkey在从“row_start”到“row_stop”的范围，字段“f3:age”的值为“25”，rowkey的前两个字符为“mi”的行数。 hbase com.huawei.hadoop.hbase.tools.bulkload.RowCounter -Dcounter.rowkey.start="row_start" -Dcounter.rowkey.stop="row_stop" -Dcounter.qualifier="f3:age:25" -Dcounter.rowkey.value="substring(0,2) == 'mi'" table1 -Dcounter.rowkey.start="row_start"：表示开始的rowkey为"row_start"。 -Dcounter.rowkey.stop="row_stop"：表示结束的rowkey为"row_stop"。 -Dcounter.qualifier="f3:age:25"：表示列族f3中列为age的列值为25。 -Dcounter.rowkey.value="substring(0,2) == 'mi'"：表示rowkey的值中前两个为mi。如果指定了“row_start”和“row_stop”，则统计的为大于等于“row_start”并且小于“row_stop”的数据。

MapReduce服务 MRS
MapReduce服务 MRS-自定义rowkey实现:配置方法

配置方法用户编写自定义rowkey的实现类，需要继承接口，该接口所在的Jar包的路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”： [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface] 实现接口中方法： byte[] getRowkeyBytes(String[] colsValues, RegulationDomain regulation) 其中：传入参数“colsValues”为原始数据中的一行数据集合，每个元素为一列。传入参数“regulation”为配置导入文件信息（一般情况下并不需要使用）。将该实现类与其依赖包同时打包成Jar文件，保存到HBase客户端所在节点的任意位置并确保执行命令的用户具有读取和执行该Jar包的权限。在执行导入命令时，增加两个参数配置项： -Dimport.rowkey.jar="第二步中Jar包的全路径" -Dimport.rowkey.class="用户实现类的全类名"

MapReduce服务 MRS
MapReduce服务 MRS-自定义rowkey实现:配置方法

配置方法用户编写自定义rowkey的实现类，需要继承接口，该接口所在的Jar包路径为“客户端安装目录/HBase/hbase/lib/hbase-it-bulk-load-*.jar”： [com.huawei.hadoop.hbase.tools.bulkload.RowkeyHandlerInterface]，实现接口中方法： byte[] getRowkeyBytes(String[] colsValues, RegulationDomain regulation) 其中：传入参数“colsValues”为原始数据中的一行数据集合，每个元素为一列。传入参数“regulation”为配置导入文件信息（一般情况下并不需要使用）。将该实现类与其依赖包同时打包成Jar文件，保存到HBase客户端所在节点的任意位置并确保执行命令的用户具有读取和执行该Jar包的权限。在执行导入命令时，增加两个参数配置项： -Dimport.rowkey.jar="第二步中Jar包的全路径" -Dimport.rowkey.class="用户实现类的全类名"

MapReduce服务 MRS
MapReduce服务 MRS-配置netty网络通信:操作步骤

操作步骤以下配置均可在客户端的“conf/flink-conf.yaml”配置文件中进行修改适配，默认已经是相对较优解，请谨慎修改，防止性能下降。 “taskmanager.network.netty.num-arenas”：默认是“taskmanager.numberOfTaskSlots”，表示netty的域的数量。 “taskmanager.network.netty.server.numThreads”和“taskmanager.network.netty.client.numThreads”：默认是“taskmanager.numberOfTaskSlots”，表示netty的客户端和服务端的线程数目设置。 “taskmanager.network.netty.client.connectTimeoutSec”：默认是120s，表示taskmanager的客户端连接超时的时间。 “taskmanager.network.netty.sendReceiveBufferSize”：默认是系统缓冲区大小(cat /proc/sys/net/ipv4/tcp_[rw]mem) ，一般为4MB，表示netty的发送和接收的缓冲区大小。 “taskmanager.network.netty.transport”：默认为“nio”方式，表示netty的传输方式，有“nio”和“epoll”两种方式。

MapReduce服务 MRS
MapReduce服务 MRS-如何在CarbonData中配置非安全内存？:回答

回答在Spark配置中，“spark.yarn.executor.memoryOverhead”参数的值应大于CarbonData配置参数“sort.inmemory.size.inmb” 与“Netty offheapmemory required”参数值的总和，或者“carbon.unsafe.working.memory.in.mb” 、 “carbon.sort.inememory.storage.size.in.mb” 与 “Netty offheapmemory required”参数值的总和。否则，如果堆外（off heap）访问超出配置的executor内存，则YARN可能会停止executor。 “Netty offheapmemory required”说明：当“spark.shuffle.io.preferDirectBufs”设为true时，Spark中netty 传输服务从"spark.yarn.executor.memoryOverhead"中拿掉部分堆内存[~ 384 MB or 0.1 x 执行器内存]。详细信息请参考常见配置executor堆外内存大小。

MapReduce服务 MRS
MapReduce服务 MRS-安装MRS 3.x之前版本Flume客户端:操作步骤

操作步骤根据前提条件，创建一个满足要求的弹性云服务器。登录集群详情页面，选择“组件管理”。若集群详情页面没有“组件管理”页签，请先完成IAM用户同步（在集群详情页的“概览”页签，单击“IAM用户同步”右侧的“同步”进行IAM用户同步）。单击“下载客户端”。在“客户端类型”选择“完整客户端”。在“下载路径”选择“远端主机”。将“主机IP”设置为ECS的IP地址，设置“主机端口”为“22”，并将“保存路径”设置为“/tmp”。如果使用SSH登录ECS的默认端口“22”被修改，请将“主机端口”设置为新端口。 “保存路径”最多可以包含256个字符。 “登录用户”设置为“root”。如果使用其他用户，请确保该用户对保存目录拥有读取、写入和执行权限。在“登录方式”选择“密码”或“SSH私钥”。密码：输入创建集群时设置的root用户密码。 SSH私钥：选择并上传创建集群时使用的密钥文件。单击“确定”开始生成客户端文件。若界面显示以下提示信息表示客户端包已经成功保存。下载客户端文件到远端主机成功。若界面显示以下提示信息，请检查用户名密码及远端主机的安全组配置，确保用户名密码正确，及远端主机的安全组已增加SSH(22)端口的入方向规则。然后从3执行重新下载客户端。连接到服务器失败，请检查网络连接或参数设置。图1 下载客户端选择“Flume”服务，单击“实例”，查看任意一个Flume实例和两个MonitorServer实例的“业务IP”。使用VNC方式，登录弹性云服务器。参见远程登录（VNC方式）)。所有镜像均支持Cloud-init特性。Cloud-init预配置的用户名“root”，密码为创建集群时设置的密码。首次登录建议修改。在弹性云服务器，切换到root用户，并将安装包复制到目录“/opt”。 sudo su - root cp /tmp/MRS_Flume_Client.tar /opt 在“/opt”目录执行以下命令，解压压缩包获取校验文件与客户端配置包。 tar -xvf MRS_Flume_Client.tar 执行以下命令，校验文件包。 sha256sum -c MRS_Flume_ClientConfig.tar.sha256 界面显示如下信息，表明文件包校验成功： MRS_Flume_ClientConfig.tar: OK 执行以下命令，解压“MRS_Flume_ClientConfig.tar”。 tar -xvf MRS_Flume_ClientConfig.tar 执行以下命令，安装客户端运行环境到新的目录，例如“/opt/Flumeenv”。安装时自动生成目录。 sh /opt/MRS_Flume_ClientConfig/install.sh /opt/Flumeenv 查看安装输出信息，如有以下结果表示客户端运行环境安装成功： Components client installation is complete. 执行以下命令，配置环境变量。 source /opt/Flumeenv/bigdata_env 执行以下命令，解压Flume客户端。 cd /opt/MRS_Flume_ClientConfig/Flume tar -xvf FusionInsight-Flume-1.6.0.tar.gz 执行以下命令，查看当前用户密码是否过期。 chage -l root “Password expires”时间早于当前则表示过期。此时需要修改密码，或执行chage -M -1 root设置密码为未过期状态。执行以下命令，安装Flume客户端到新目录，例如“/opt/FlumeClient”。安装时自动生成目录。 sh /opt/MRS_Flume_ClientConfig/Flume/install.sh -d /opt/FlumeClient -f MonitorServer实例的业务IP地址 -c Flume配置文件路径 -l /var/log/ -e Flume的业务IP地址 -n Flume客户端名称各参数说明如下： “-d”：表示Flume客户端安装路径。 “-f”：可选参数，表示两个MonitorServer角色的业务IP地址，中间用英文逗号分隔，若不设置则Flume客户端将不向MonitorServer发送告警信息，同时在MRS Manager界面上看不到该客户端的相关信息。 “-c”：可选参数，表示Flume客户端在安装后默认加载的配置文件“properties.properties”。如不添加参数，默认使用客户端安装目录的“fusioninsight-flume-1.6.0/conf/properties.properties”。客户端中配置文件为空白模板，根据业务需要修改后Flume客户端将自动加载。 “-l”：可选参数，表示日志目录，默认值为“/var/log/Bigdata”。 “-e”：可选参数，表示Flume实例的业务IP地址，主要用于接收客户端上报的监控指标信息。 “-n”：可选参数，表示自定义的Flume客户端的名称。 IBM的JDK不支持“-Xloggc”，需要修改“flume/conf/flume-env.sh”，将“-Xloggc”修改为“-Xverbosegclog”，若JDK为32位，“-Xmx”不能大于3.25GB。 “flume/conf/flume-env.sh”中，“-Xmx”默认为4GB。若客户端机器内存过小，可调整为512M甚至1GB。例如执行：sh install.sh -d /opt/FlumeClient 系统显示以下结果表示客户端运行环境安装成功： install flume client successfully.

MapReduce服务 MRS
MapReduce服务 MRS-配置进程参数:操作步骤

操作步骤配置JobManager内存。 JobManager负责任务的调度，以及TaskManager、RM之间的消息通信。当任务数变多，任务平行度增大时，JobManager内存都需要相应增大。您可以根据实际任务数量的多少，为JobManager设置一个合适的内存。在使用yarn-session命令时，添加“-jm MEM”参数设置内存。在使用yarn-cluster命令时，添加“-yjm MEM”参数设置内存。配置TaskManager个数。每个TaskManager每个核同时能跑一个task，所以增加了TaskManager的个数相当于增大了任务的并发度。在资源充足的情况下，可以相应增加TaskManager的个数，以提高运行效率。配置TaskManager Slot数。每个TaskManager多个核同时能跑多个task，相当于增大了任务的并发度。但是由于所有核共用TaskManager的内存，所以要在内存和核数之间做好平衡。在使用yarn-session命令时，添加“-s NUM”参数设置SLOT数。在使用yarn-cluster命令时，添加“-ys NUM”参数设置SLOT数。配置TaskManager内存。 TaskManager的内存主要用于任务执行、通信等。当一个任务很大的时候，可能需要较多资源，因而内存也可以做相应的增加。将在使用yarn-session命令时，添加“-tm MEM”参数设置内存。将在使用yarn-cluster命令时，添加“-ytm MEM”参数设置内存。

MapReduce服务 MRS
MapReduce服务 MRS-经验总结:缓冲区超时设置

缓冲区超时设置由于task在执行过程中存在数据通过网络进行交换，数据在不同服务器之间传递的缓冲区超时时间可以通过setBufferTimeout进行设置。当设置“setBufferTimeout(-1)”，会等待缓冲区满之后才会刷新，使其达到最大吞吐量；当设置“setBufferTimeout(0)”时，可以最小化延迟，数据一旦接收到就会刷新；当设置“setBufferTimeout”大于0时，缓冲区会在该时间之后超时，然后进行缓冲区的刷新。示例可以参考如下： env.setBufferTimeout(timeoutMillis);env.generateSequence(1,10).map(new MyMapper()).setBufferTimeout(timeoutMillis);

MapReduce服务 MRS
MapReduce服务 MRS-安全特性描述:Web安全

Web安全 Flink Web安全加固，支持白名单过滤，Flink Web只能通过YARN代理访问，支持安全头域增强。在Flink集群中，各部件的监听端口支持范围可配置。编码规范：说明：Web Service客户端和服务器间使用相同的编码方式，是为了防止出现乱码现象，也是实施输入校验的基础。安全加固：web server响应消息统一采用UTF-8字符编码。支持IP白名单过滤：说明：防止非法用户登录，需在web server侧添加IP Filter过滤源IP非法的请求。安全加固：支持IP Filter实现Web白名单配置，配置项是“jobmanager.web.allow-access-address”，默认情况下只支持YARN用户接入。安装客户端之后需要将客户端节点IP追加到jobmanager.web.allow-access-address配置项中。禁止将文件绝对路径发送到客户端：说明：文件绝对路径发送到客户端会暴露服务端的目录结构信息，有助于攻击者遍历了解系统，为攻击者攻击提供帮助。安全加固：Flink配置文件中所有配置项中如果包含以/开头的，则删掉第一级目录。同源策略：适用于MRS 3.x及之后版本。说明：如果两个URL的协议，主机和端口均相同，则它们同源；如果不同源，默认不能相互访问；除非被访问者在其服务端显示指定访问者的来源。安全加固：响应头“Access-Control-Allow-Origin”头域默认配置为YARN集群ResourceManager的IP地址，如果源不是来自YARN的，则不能互相访问。防范敏感信息泄露：适用于MRS 3.x及之后版本。说明：带有敏感数据的Web页面都应该禁止缓存，以防止敏感信息泄漏或通过代理服务器上网的用户数据互窜现象。安全加固：添加“Cache-control”、“Pragma”、“Expires”安全头域，默认值为：“Cache-Control：no-store”，“Pragma ：no-cache”，“Expires ： 0”。实现了安全加固，Flink和web server交互的内容将不会被缓存。防止劫持：适用于MRS 3.x及之后版本。说明：由于点击劫持（ClickJacking）和框架盗链都利用到框架技术，所以需要采用安全措施。安全加固：添加“X-Frame-Options”安全头域，给浏览器提供允许一个页面可否在“iframe”、“frame”或“object”网站中的展现页面的指示，如果默认配置为“X-Frame-Options: DENY”，则确保任何页面都不能被嵌入到别的“iframe”、“frame”或“object”网站中，从而避免了点击劫持 (clickjacking) 的攻击。对Web Service接口调用记录日志：适用于MRS 3.x及之后版本。说明：对“Flink webmonitor restful”接口调用进行日志记录。安全加固：“access log”支持配置：“jobmanager.web.accesslog.enable”，默认为“true”。且日志保存在单独的“webaccess.log”文件中。跨站请求（CSRF）伪造防范：适用于MRS 3.x及之后版本。说明：在B/S应用中，对于涉及服务器端数据改动（如增加、修改、删除）的操作必须进行跨站请求伪造的防范。跨站请求伪造是一种挟制终端用户在当前已登录的Web应用程序上执行非本意的操作的攻击方法。安全加固：现有请求修改的接口有2个post，1个delete，其余均是get请求，非get请求的接口均已删除。异常处理：适用于MRS 3.x及之后版本。说明：应用程序出现异常时，捕获异常，过滤返回给客户端的信息，并在日志中记录详细的错误信息。安全加固：默认的错误提示页面，进行信息过滤，并在日志中记录详细的错误信息。新加四个配置项，默认配置为FusionInsight提供的跳转URL，错误提示页面跳转到固定配置的URL中，防止暴露不必要的信息。表1 四个配置项参数介绍参数描述默认值是否必选配置 jobmanager.web.403-redirect-url web403页面，访问若遇到403错误，则会重定向到配置的页面。 - 是 jobmanager.web.404-redirect-url web404页面，访问若遇到404错误，则会重定向到配置的页面。 - 是 jobmanager.web.415-redirect-url web415页面，访问若遇到415错误，则会重定向到配置的页面。 - 是 jobmanager.web.500-redirect-url web500页面，访问若遇到500错误，则会重定向到配置的页面。 - 是 HTML5安全：适用于MRS 3.x及之后版本。说明：HTML5是下一代的Web开发规范，为开发者提供了许多新的功能并扩展了标签。这些新的标签及功能增加了攻击面，存在被攻击的风险（例如跨域资源共享、客户端存储、WebWorker、WebRTC、WebSocket等）。安全加固：添加“Access-Control-Allow-Origin”配置，如运用到跨域资源共享功能，可对HTTP响应头的“Access-Control-Allow-Origin”属性进行控制。 Flink不涉及如客户端存储、WebWorker、WebRTC、WebSocket等安全风险。

MapReduce服务 MRS
MapReduce服务 MRS-安全特性描述:Flink认证和加密

Flink认证和加密 Flink集群中，各部件支持认证。 Flink集群内部各部件和外部部件之间，支持和外部部件如YARN、HDFS、ZooKeeprer进行kerberors认证。 Flink集群内部各部件之间，如Flink client和JobManager、JobManager和TaskManager、TaskManager和TaskManager之间支持security cookie认证。 Flink集群中，各部件支持SSL加密传输；集群内部各部件之间，如Flink client和JobManager、JobManager和TaskManager、TaskManager和TaskManager之间支持SSL加密传输。详情可参考认证和加密。

MapReduce服务 MRS
MapReduce服务 MRS-安全特性描述:ACL控制

ACL控制在HA模式下，支持ACL控制。 Flink在HA模式下，支持用ZooKeeper来管理集群和发现服务。ZooKeeper支持SASL ACL控制，即只有通过SASL（kerberos）认证的用户，才有往ZK上操作文件的权限。如果要在Flink上使用SASL ACL控制，需要在Flink配置文件中设置如下配置： high-availability.zookeeper.client.acl: creatorzookeeper.sasl.disable: false 具体配置项介绍请参考HA。

MapReduce服务 MRS
MapReduce服务 MRS-配置内存:操作步骤

操作步骤优化GC。调整老年代和新生代的比值。在客户端的“conf/flink-conf.yaml”配置文件中，在“env.java.opts”配置项中添加参数：“-XX:NewRatio”。如“ -XX:NewRatio=2”，则表示老年代与新生代的比值为2:1，新生代占整个堆空间的1/3，老年代占2/3。开发Flink应用程序时，优化DataStream的数据分区或分组操作。当分区导致数据倾斜时，需要考虑优化分区。避免非并行度操作，有些对DataStream的操作会导致无法并行，例如WindowAll。 keyBy尽量不要使用String。

MapReduce服务 MRS
MapReduce服务 MRS-配置Pipeline

配置Pipeline 本章节适用于MRS 3.x及之后版本。配置文件。 nettyconnector.registerserver.topic.storage：设置NettySink的IP、端口及并发度信息在第三方注册服务器上的路径（必填），例如： nettyconnector.registerserver.topic.storage: /flink/nettyconnector nettyconnector.sinkserver.port.range：设置NettySink的端口范围（必填），例如： nettyconnector.sinkserver.port.range: 28444-28843 nettyconnector.ssl.enabled：设置NettySink与NettySource之间通信是否SSL加密（默认为false），例如： nettyconnector.ssl.enabled: true 安全认证配置。 Zookeeper的SASL认证，依赖“flink-conf.yaml”中有关HA的相关配置。 SSL的keystore、truststore、keystore password、truststore password以及password等也使用“flink-conf.yaml”的相关配置，具体配置请参见加密传输。父主题：配置Flink安全特性

MapReduce服务 MRS
MapReduce服务 MRS-CREATE SECONDARY INDEX:参数描述

参数描述表1 CREATE SECONDARY INDEX参数参数描述 index_name 索引表的名称。表名称应由字母数字字符和下划线（_）特殊字符组成。 db_name 数据库的名称。数据库名称应由字母数字字符和下划线（_）特殊字符组成。 table_name 数据库中的表名称。表名称应由字母数字字符和下划线（_）特殊字符组成。 col_name 表中的列名称。支持多列。列名称应由字母数字字符和下划线（_）特殊字符组成。 table_blocksize 数据文件的block大小。更多详细信息，请参考•Block大小。

MapReduce服务 MRS
MapReduce服务 MRS-CREATE SECONDARY INDEX:示例

示例 create table productdb.productSalesTable(id int,price int,productName string,city string) stored as carbondata; CREATE INDEX productNameIndexTable on table productdb.productSalesTable (productName,city) as 'carbondata' ; 上述示例将创建名为“productdb.productNameIndexTable”的二级表并加载所提供列的索引信息。

MapReduce服务 MRS
MapReduce服务 MRS-为什么创建Hive表失败？:回答

回答当源表或子查询具有大数据量的Partition时，创建Hive表失败。执行查询需要很多的task，此时输出的文件数就会很多，从而导致driver OOM。可以在创建Hive表的语句中增加distribute by子句来解决这个问题，其中distribute by的字段要选取合适的cardinality（即distinct值的个数）。 distribute by子句限制了Hive表的Partition数量。增加distribute by 子句后，最终的输出文件数取决于指定列的cardinality和“spark.sql.shuffle.partitions”参数值。但如果distribute by的字段的cardinality值很小，例如，“spark.sql.shuffle.partitions”参数值为200，但distribute by字段的cardinality只有100，则输出的200个文件中，只有其中100个文件有数据，剩下的100个文件为空文件。也就是说，如果选取的字段的cardinality过低，如1，则会造成严重的数据倾斜，从而严重影响查询性能。因此，建议选取的distribute by字段的cardinality个数要大于“spark.sql.shuffle.partitions”参数，可大于2~3倍。示例： create table hivetable1 as select * from sourcetable1 distribute by col_age;

MapReduce服务 MRS
MapReduce服务 MRS-当初始Executor为0时，为什么INSERT INTO/LOAD DATA任务分配不正确，打开的task少于可用的Executor？:回答

回答在这种场景下，CarbonData会给每个节点分配一个INSERT INTO或LOAD DATA任务。如果Executor不是不同的节点分配的，CarbonData将会启动较少的task。解决措施：您可以适当增大Executor内存和Executor核数，以便YARN可以在每个节点上启动一个Executor。具体的配置方法如下：配置Executor核数。将“spark-defaults.conf”中的“spark.executor.cores”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_CORES”配置项设置为合适大小。在使用spark-submit命令时，添加“--executor-cores NUM”参数设置核数。配置Executor内存。将“spark-defaults.conf”中的“spark.executor.memory”配置项或者“spark-env.sh”中的“SPARK_EXECUTOR_MEMORY”配置项设置为合适大小。在使用spark-submit命令时，添加“--executor-memory MEM”参数设置内存。

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线