华为云用户手册

MAPREDUCE服务 MRS-启用Yarn CGroups功能限制Container CPU使用率:配置描述

配置描述有关如何配置CPU隔离与安全的CGroups功能的详细信息，请参见Hadoop官网： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.html 由于CGroups为Linux内核特性，是通过LinuxContainerExecutor进行开放。请参考官网资料对LinuxContainerExecutor进行安全配置。您可通过官网资料了解系统用户和用户组配置对应的文件系统权限。详情请参见： MRS 3.2.0之前版本：http://hadoop.apache.org/docs/r3.1.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor MRS 3.2.0及之后版本：https://hadoop.apache.org/docs/r3.3.1/hadoop-project-dist/hadoop-common/SecureMode.html#LinuxContainerExecutor 请勿修改对应文件系统中各路径所属的用户、用户组及对应的权限，否则可能导致本功能异常。当参数“yarn.nodemanager.resource.percentage-physical-cpu-limit”配置过小，导致可使用的核不足1个时，例如4核节点，将此参数设置为20%，不足1个核，那么将会使用系统全部的核。Linux的一些版本不支持Quota模式，例如Cent OS。在这种情况下，可以使用CPUset模式。配置cpuset模式，即YARN只能使用配置的CPU，需要添加以下配置。表1 cpuset配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false 配置strictcpuset模式，即container只能使用配置的CPU，需要添加以下配置。表2 CPU硬隔离参数配置参数描述默认值 yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage 设置为“true”时，应用以cpuset模式运行。 false yarn.nodemanager.linux-container-executor.cgroups.cpuset.strict.enabled 设置为true时，container只能使用配置的CPU。 false 要从cpuset模式切换到Quota模式，必须遵循以下条件：配置“yarn.nodemanager.linux-container-executor.cgroups.cpu-set-usage”=“false”。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下container文件夹（如果存在）。删除“/sys/fs/cgroup/cpuset/hadoop-yarn/”路径下cpuset.cpus文件中设置的所有CPU。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Loader数据导入导出概述:Loader数据导出简介

Loader数据导出简介 Loader支持将数据或者文件从MRS系统中导出到关系型数据库或文件系统中，Loader支持如下数据导出方式：从HDFS/OBS中导出数据到SFTP服务器从HDFS/OBS中导出数据到关系型数据库从HBase中导出数据到SFTP服务器从HBase中导出数据到关系型数据库从Phoenix表导出数据到SFTP服务器从Phoenix表导出数据到关系型数据库从Hive中导出数据到SFTP服务器从Hive中导出数据到关系数据库从同一集群内HBase导出数据到HDFS/OBS

MAPREDUCE服务 MRS 使用Loader
MAPREDUCE服务 MRS-Loader数据导入导出概述:Loader数据导入简介

Loader数据导入简介 Loader是实现MRS与外部数据源如关系型数据库、SFTP服务器、FTP服务器之间交换数据和文件的ETL工具，支持将数据或文件从关系型数据库或文件系统导入到MRS系统中。 Loader支持如下数据导入方式：从关系型数据库导入数据到HDFS/OBS 从关系型数据库导入数据到HBase 从关系型数据库导入数据到Phoenix表从关系型数据库导入数据到Hive表从SFTP服务器导入数据到HDFS/OBS 从SFTP服务器导入数据到HBase 从SFTP服务器导入数据到Phoenix表从SFTP服务器导入数据到Hive表从FTP服务器导入数据到HDFS/OBS 从FTP服务器导入数据到HBase 从FTP服务器导入数据到Phoenix表从FTP服务器导入数据到Hive表从同一集群内HDFS/OBS导入数据到HBase MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器，用于配置不同类型数据源的连接参数： generic-jdbc-connector：关系型数据库连接器。 ftp-connector：FTP数据源连接器。 hdfs-connector：HDFS数据源连接器。 oracle-connector：Oracle数据库专用连接器，使用row_id作为分区列，相对generic-jdbc-connector来说，Map任务分区更均匀，并且不依赖分区列是否有创建索引。 mysql-fastpath-connector：MYSQL数据库专用连接器，使用MYSQL的mysqldump和mysqlimport工具进行数据的导入导出，相对generic-jdbc-connector来说，导入导出速度更快。 sftp-connector：SFTP数据源连接器。 oracle-partition-connector：支持Oracle分区特性的连接器，专门对Oracle分区表的导入导出进行优化。使用FTP数据源连接器时不加密数据，可能存在安全风险，建议使用SFTP数据源连接器。建议将SFTP服务器、FTP服务器和数据库服务器与Loader部署在独立的子网中，以保障数据安全地导入。与关系数据库连接时，可以选择通用数据库连接器（generic-jdbc-connector）或者专用数据库连接器（oracle-connector、oracle-partition-connector、mysql-fastpath-connector），专用数据库连接器特别针对具体数据库类型进行优化，相对通用数据库连接器来说，导出、导入速度更快。使用mysql-fastpath-connector时，要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令，并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容，如果没有这两个命令或版本不兼容，请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html，安装MySQL client applications and tools。使用oracle-connector时，要求给连接用户赋予如下系统表或者视图的select权限： dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、SYS_CONTEXT函数、dba_extents、 dba_tab_subpartitions。使用oracle-partition-connector时，要求给连接用户赋予如下系统表的select权限：dba_objects、dba_extents。

MAPREDUCE服务 MRS 使用Loader
MAPREDUCE服务 MRS-增加常量字段:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值配置字段配置常量字段相关信息：输出字段名：配置字段名。类型：配置字段类型。时间格式：字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。常量值：配置符合类型的常量值。 map 是无

MAPREDUCE服务 MRS Loader转换类算子
MAPREDUCE服务 MRS-使用Oozie客户端提交其它任务:操作步骤

操作步骤以客户端安装用户，登录安装Oozie客户端的节点。执行以下命令，获取安装环境信息。其中“/opt/client”为客户端安装路径，该操作的客户端目录只是举例，请根据实际安装目录修改。 source /opt/client/bigdata_env 判断集群认证模式。安全模式，执行kinit命令进行用户认证。例如，使用oozieuser用户进行认证。 kinit oozieuser 普通模式，执行4。根据提交任务类型，进入对应样例目录。表1 样例目录列表任务类型样例目录 Mapreduce任务客户端安装目录/Oozie/oozie-client-*/examples/apps/map-reduce Java任务客户端安装目录/Oozie/oozie-client-*/examples/apps/java-main Shell任务客户端安装目录/Oozie/oozie-client-*/examples/apps/shell Streaming任务客户端安装目录/Oozie/oozie-client-*/examples/apps/streaming SubWorkflow任务客户端安装目录/Oozie/oozie-client-*/examples/apps/subwf SSH任务客户端安装目录/Oozie/oozie-client-*/examples/apps/ssh 定时任务客户端安装目录/Oozie/oozie-client-*/examples/apps/cron 其他任务样例中已包含HDFS任务样例。样例目录下需关注文件如表2所示。表2 文件说明文件名称描述 job.properties 工作流的参数变量定义文件。 workflow.xml 工作流的规则定制文件。 lib 工作流运行依赖的jar包目录。 coordinator.xml “cron”目录下存在，定时任务配置文件，用于设置定时策略。 oozie_shell.sh “shell”目录下存在，提交Shell任务需要的Shell脚本文件。执行以下命令，编辑“job.properties”文件。 vi job.properties 修改如下内容：更改“userName”的参数值为提交任务的人机用户名，例如“userName=oozieuser”。执行oozie job命令，运行工作流文件。 oozie job -oozie https://oozie角色的主机名:21003/oozie -config job.properties文件所在路径 -run 例如： oozie job -oozie https://10-1-130-10:21003/oozie -config /opt/client/Oozie/oozie-client-*/examples/apps/map-reduce/job.properties -run 命令参数解释如下： -oozie 实际执行任务的Oozie服务器URL -config 工作流属性文件 -run 运行工作流执行完工作流文件，显示job id表示提交成功，例如：job: 0000021-140222101051722-oozie-omm-W。登录Oozie管理页面，查看运行情况。使用oozieuser用户，登录Oozie WebUI页面：https://oozie角色的ip地址:21003/oozie 。 Oozie的WebUI界面中，可在页面表格根据jobid查看已提交的工作流信息。

MAPREDUCE服务 MRS 使用Oozie客户端提交作业
MAPREDUCE服务 MRS-使用Oozie客户端提交其它任务:前提条件

前提条件 Oozie组件及客户端已经安装，并且正常运行。已创建或获取访问Oozie服务的人机用户账号及密码。 Shell任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并确保Shell脚本在每个nodemanager节点都有执行权限。 SSH任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并完成互信配置。其他任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并具备对应任务类型所需的权限。用户同时还需要至少manager_viewer权限的角色。获取运行状态的Oozie服务器（任意实例）URL，如“https://10.1.130.10:21003/oozie”。获取运行状态的Oozie服务器主机名，如“10-1-130-10”。获取Yarn ResourceManager主节点IP，如10.1.130.11。

MAPREDUCE服务 MRS 使用Oozie客户端提交作业
MAPREDUCE服务 MRS-上传数据库驱动文件:前提条件

前提条件已获取待连接数据库对应的驱动Jar包。仅数据源MySQL、Oracle（MRS 3.3.0及之后版本支持）需要上传相应的驱动，驱动对应的版本号如表1所示，且驱动需要在MySQL或Oracle官网下载。表1 MySQL、Oracle数据源支持的驱动数据源支持的驱动包 MySQL mysql-connector-java-8.0.24.jar Oracle（MRS 3.3.0及之后版本支持） ojdbc8-12.2.0.1.jar 此处Oracle仅作为ThirdKafka数据源使用。开启Kerberos认证的集群需已参考CDL用户权限管理创建具有CDL管理操作权限的用户。

MAPREDUCE服务 MRS 创建CDL作业前准备
MAPREDUCE服务 MRS-有210000个map和10000个reduce的HBase BulkLoad任务运行失败:回答

回答 ZooKeeper IO瓶颈观测手段：通过Manager的监控页面查看单个节点上ZooKeeper请求监控，判断是否严重超出规格限制。通过观测ZooKeeper的日志以及HBase的日志，查看是否有大量的IO Exception Timeout或者SocketTimeout Exception异常。调优建议：将ZooKeeper实例个数调整为5个及以上，可以通过设置peerType=observer来增加observer的数目。通过控制单个任务并发的map数或减少每个节点下运行task的内存，降低节点负载。升级ZooKeeper数据磁盘，如SSD等。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-配置Kafka数据安全传输协议:Kafka访问协议说明

Kafka访问协议说明请参考修改集群服务配置参数查看或配置参数。 Kafka当前支持四种协议类型的访问：PLAINTEXT、SSL、SASL_PLAINTEXT、SASL_SSL。 Kafka服务启动时，默认会启动PLAINTEXT和SASL_PLAINTEXT两种协议类型的访问监测。可通过设置Kafka服务配置“ssl.mode.enable”为“true”，来启动SSL和SASL_SSL两种协议类型的访问监测。下表是四种协议类型的简单说明：协议类型说明默认端口 PLAINTEXT 支持无认证的明文访问获取参数“port”的值，默认为9092 SASL_PLAINTEXT 支持Kerberos认证的明文访问获取参数“sasl.port”的值，默认为21007 SSL 支持无认证的SSL加密访问获取参数“ssl.port”的值，默认为9093 SASL_SSL 支持Kerberos认证的SSL加密访问获取参数“sasl-ssl.port”的值，默认为21009

MAPREDUCE服务 MRS Kafka企业级能力增强
MAPREDUCE服务 MRS-配置Kafka数据安全传输协议:针对不同的Topic访问场景，Kafka中API使用说明

针对不同的Topic访问场景，Kafka中API使用说明场景一：访问设置了ACL的Topic 使用的API 用户属组客户端参数服务端参数访问的端口 API 用户需满足以下条件之一即可：加入System_administrator角色属于kafkaadmin组属于kafkasuperuser组被授权的kafka组的用户 security.inter.broker.protocol=SASL_PLAINTEXT sasl.kerberos.service.name = kafka - sasl.port（默认21007） security.protocol=SASL_SSL sasl.kerberos.service.name = kafka “ssl.mode.enable”配置为true sasl-ssl.port（默认21009）场景二：访问未设置ACL的Topic 使用的API 用户属组客户端参数服务端参数访问的端口 API 用户需满足以下条件之一：加入System_administrator角色属于kafkaadmin组属于kafkasuperuser组 security.protocol=SASL_PLAINTEXT sasl.kerberos.service.name = kafka - sasl.port（默认21007）用户属于kafka组 “allow.everyone.if.no.acl.found”配置为true 说明：普通集群下不涉及服务端参数“allow.everyone.if.no.acl.found”的修改 sasl.port（默认21007）用户需满足以下条件之一：加入System_administrator角色属于kafkaadmin组 kafkasuperuser组用户 security.protocol=SASL_SSL sasl.kerberos.service.name = kafka “ssl.mode.enable”配置为“true” sasl-ssl.port（默认21009）用户属于kafka组 “allow.everyone.if.no.acl.found”配置为“true” “ssl.mode.enable”配置为“true” sasl-ssl.port（默认21009） - security.protocol=PLAINTEXT “allow.everyone.if.no.acl.found”配置为“true” port（默认9092） - security.protocol=SSL “allow.everyone.if.no.acl.found”配置为“true” “ssl.mode.enable”配置为“true” ssl.port（默认9063）

MAPREDUCE服务 MRS Kafka企业级能力增强
MAPREDUCE服务 MRS-配置Kafka数据安全传输协议:Kafka API简单说明

Kafka API简单说明 Producer API 指org.apache.kafka.clients.producer.KafkaProducer中定义的接口，在使用“kafka-console-producer.sh”时，默认使用此API。 Consumer API 指org.apache.kafka.clients.consumer.KafkaConsumer中定义的接口，在使用“kafka-console-consumer.sh”时，默认会调用此API。 MRS 3.x后，Kafka不支持旧Producer API和旧Consumer API。

MAPREDUCE服务 MRS Kafka企业级能力增强
MAPREDUCE服务 MRS-配置DataNode节点容量不一致时的副本放置策略:操作步骤

操作步骤请参考修改集群服务配置参数，进入HDFS的“全部配置”页面。调整HDFS写数据时的依据的磁盘选择策略参数。搜索“dfs.block.replicator.classname”参数，并将参数的值改为“org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy”。保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。

MAPREDUCE服务 MRS HDFS企业级能力增强
MAPREDUCE服务 MRS-配置DataNode节点容量不一致时的副本放置策略:对系统的影响

对系统的影响修改磁盘选择策略为“节点磁盘可用空间块放置策略（org.apache.hadoop.hdfs.server.blockmanagement.AvailableSpaceBlockPlacementPolicy）”，经过测试验证，在该测试结果中，修改前后，HDFS写文件性能影响范围在3%以内。 NameNode默认的副本存储策略为：第一副本：存放到客户端所在节点。第二副本：远端机架的数据节点。第三副本：存放到客户端所在节点的相同机架的不同节点。如还有更多副本，则随机选择其它DataNode。 “节点磁盘可用空间块放置策略”的副本选择机制为：第一个副本：存放在客户端所在DataNode（和默认的存放策略一样）。第二个副本：选择存储节点的时候，先挑选2个满足要求的数据节点。比较这2个节点磁盘空间使用比例，如果磁盘空间使用率的相差小于5%，随机存放到第一个节点。如果磁盘空间使用率相差超过5%，即有60%（由dfs.namenode.available-space-block-placement-policy.balanced-space-preference-fraction指定，默认值0.6）的概率写到磁盘空间使用率低的节点。第三副本等其他后续副本的存储情况，也参考第二个副本的选择方式。

MAPREDUCE服务 MRS HDFS企业级能力增强
MAPREDUCE服务 MRS-配置Hive Beeline高可靠性:操作示例

操作示例 beeline启动断线重连功能。示例： beeline -e "${SQL}" --hivevar batchid=xxxxx beeline kill正在运行的任务。示例： beeline -e "" --hivevar batchid=xxxxx --hivevar kill=true 登录beeline客户端，启动断线重连机制。登录beeline客户端后，执行“set hivevar:batchid=xxxx” 使用说明：其中“xxxx”表示每一次通过beeline提交任务的批次号，通过该批次号，可以识别出先提交的任务。如果提交任务时不带批次号，该特性功能不会启用。“xxxx”的值是执行任务时指定的，如下所示，“xxxx”值为“012345678901”： beeline -f hdfs://hacluster/user/hive/table.sql --hivevar batchid=012345678901 如果运行的SQL脚本依赖数据的失效性，建议不启用断点重连机制，或者每次运行时使用新的batchid。因为重复执行时，可能由于某些SQL语句已经执行过了不再重新执行，导致获取到过期的数据。如果SQL脚本中使用了一些内置时间函数，建议不启用断点重连机制，或者每次运行时使用新的batchid，理由同上。一个SQL脚本里面会包含一个或多个子任务。如果SQL脚本中存在先创建再删除临时表的逻辑，建议将删除临时表的逻辑放到脚本的最后。假定删除临时表子任务的后续子任务执行失败，并且删除临时表的子任务之前的子任务用到了该临时表；当下一次以相同batchid执行该SQL脚本时，因为临时表在上一次执行时已被删除，则会导致删除临时表的子任务之前用到该临时表的子任务（不包括创建该临时表的子任务，因为上一次已经执行成功，本次不会再执行，仅可编译）编译失败。这种情况下，建议使用新的batchid执行脚本。参数说明： zk.cleanup.finished.job.interval：执行清理任务的间隔时间，默认隔60s执行一次。 zk.cleanup.finished.job.outdated.threshold：节点的过期时间，每个批次的任务都会生成对应节点，从当前批次任务的结束时间开始算，如果超过60分钟，则表示已经过期了，那么就清除节点。 batch.job.max.retry.count：单批次任务的最大重试次数，当单批次的任务失败重试次数超过这个值，就会删除该任务记录，下次运行时将从头开始运行，默认是10次。 beeline.reconnect.zk.path：存储任务执行进度的根节点，Hive服务默认是/beeline。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-配置Hive Beeline高可靠性:操作场景

操作场景在批处理任务运行过程中，beeline客户端由于网络异常等问题断线时，Hive能支持beeline在断线前已经提交的任务继续运行。当再次运行该批处理任务时，已经提交过的任务不再重新执行，直接从下一个任务开始执行。在批处理任务运行过程中，HiveServer服务由于某些原因导致故障时，Hive能支持当再次运行该批处理任务时，已经成功执行完成的任务不再重新执行，直接从HiveServer2故障时正在运行的任务开始运行。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-创建HetuEngine计算实例:前提条件

前提条件已创建用于访问HetuEngine WebUI界面的用户，如hetu_user，用户创建具体操作请参见创建HetuEngine权限角色。已在待操作集群创建所需租户。请确保修改HetuEngine计算实例配置时，对应的租户有足够的内存和CPU资源。创建HetuEngine计算实例时必须使用“叶子租户”类型的租户，只有叶子租户的队列才能提交Yarn任务。为了避免资源竞争带来的不确定性因素，建议为HetuEngine使用的租户创建独立资源池。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-创建HetuEngine计算实例:计算实例状态说明

计算实例状态说明计算实例创建成功后，可在“计算实例”页签查看当前已创建的实例信息，包括实例所属租户名、对应实例数量、实例状态和资源总量等，实例状态信息如下：图1 计算实例状态绿色图标：实例处于运行中或亚健康状态。红色图标：实例故障。灰色图标：实例已停止、待启动。蓝色图标：实例处于其他状态，包括扩容中、缩容中、滚动重启中、创建中、启动中、安全启动中、停止中、安全停机中、删除中、已删除、停止中等。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-创建FlinkServer作业写入数据至HDFS文件系统:Flink对接HDFS分区

Flink对接HDFS分区 Flink对接HDFS支持自定义分区。 Flink文件系统分区支持使用标准的Hive格式。不需要将分区预先注册到表目录中，分区是根据目录结构推断。例如，根据下面的目录分区的表将被推断为包含日期时间和小时分区。 path └── datetime=2021-09-03 └── hour=11 ├── part-0.parquet ├── part-1.parquet └── hour=12 ├── part-0.parquet └── datetime=2021-09-24 └── hour=6 ├── part-0.parquet 分区文件的滚动策略。分区目录中的数据被拆分为part文件，每个分区将至少包含一个part文件，用于接收sink的子任务的数据写入。如下参数介绍分区文件如何进行滚动。配置项默认值类型描述 sink.rolling-policy.file-size 128MB MemorySize 分区文件达到该阈值后，进行滚动。 sink.rolling-policy.rollover-interval 30min Duration 分区文件在滚动前可以保持打开的最长持续时间。 sink.rolling-policy.check-interval 1min Duration 检查基于时间的滚动策略的时间间隔。分区目录的文件合并。支持文件压缩，允许应用程序具有更小的检查点间隔，而无需生成大量文件。仅压缩单个检查点中的文件，即生成的文件数量至少与检查点数量相同。合并前的文件是不可见的，因此文件的可见性是：检查点间隔+压缩时间之后。如果压缩时间太长，将延长检查点的时间段。配置项默认值类型描述 auto-compaction false Boolean 是否启用自动压缩。数据将写入临时文件。检查点完成后，检查点生成的临时文件将被压缩。压缩前临时文件不可见。 compaction.file-size none MemorySize 压缩目标文件大小，默认值为滚动文件大小。分区文件的提交。文件写入分区后，通常需要通知下游应用程序。如将分区添加到Hive元存储中，或在目录中写入_SUCCESS文件。分区文件的提交操作基于触发器和策略的组合方式。分区文件提交触发器相关配置配置项默认值类型描述 sink.partition-commit.trigger process-time String process-time：基于计算节点的系统时间，它既不需要分区时间提取，也不需要生成watermark。即“当前系统时间”超过“分区创建时的系统时间”加上“延迟”时间，就提交分区。 partition-time：基于从分区提取的时间，它需要生成watermark。即“watermark时间”超过“从分区提取的时间”加上“延迟”时间，就提交分区。 sink.partition-commit.delay 0 s Duration 分区在延迟时间之前不会提交。如果是每日分区，则应为“1 d”，如果是每小时分区，则应为“1 h”。分区问文件提交策略相关配置配置项默认值类型描述 sink.partition-commit.policy.kind - String 提交分区的策略。 metastore：将分区添加到元存储。只有hive表支持元存储策略，文件系统通过目录结构管理分区。 success-file：将success-file文件添加到目录中。两者可以同时配置，即：'sink.partition-commit.policy.kind'='metastore,success-file'。 sink.partition-commit.policy.class - String 用于实现分区提交策略接口的分区提交策略类。仅在自定义提交策略中生效。 sink.partition-commit.success-file.name _SUCCESS String success-file分区提交策略的文件名，默认值为_SUCCESS。

MAPREDUCE服务 MRS 创建FlinkServer作业
MAPREDUCE服务 MRS-固定宽度文件输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值换行符用户根据数据实际情况，填写字符串作为换行符。支持任何字符串。默认使用操作系统的换行符。 string 否 \n 分割长度单位长度单位，可选择“char”字符或“byte”字节。 enum 是 char 输入字段配置输入字段相关信息：固定长度：设置字段长度，第2个字段起点从第1个字段终点开始，以此类推。字段名：配置输入字段名。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是无

MAPREDUCE服务 MRS Loader输入类算子
MAPREDUCE服务 MRS-批量构建HBase全局二级索引数据:使用方法

使用方法只有处于INACTIVE状态的索引才能进行批量构建，如需重建索引数据，请先修改索引状态。数据表中存在大量数据时，构建耗时较长，建议使用nohup命令放在后台执行，避免操作被意外中断。在HBase客户端执行以下命令可批量构建已有数据的索引数据： hbase org.apache.hadoop.hbase.hindex.global.mapreduce.GlobalTableIndexer -Dtablename.to.index='table' -Dindexnames.to.build='idx1' 相关参数介绍如下: tablename.to.index：表示需修改索引状态的数据表的名称。 indexnames.to.build：指定的需要批量生成数据的索引名，可以同时指定多个，用#号分割。 hbase.gsi.cleandata.enabled（可选）：表示构建索引数据前是否需要清空索引表，默认值为“false”。 hbase.gsi.cleandata.timeout（可选）：表示构建索引数据前等待清空索引表超时时间，默认值为“1800”，单位为：秒。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HistoryServer缓存的应用被回收，导致此类应用页面访问时出错:问题

问题在History Server页面中访问某个Spark应用的页面时，发现访问时出错。查看相应的HistoryServer日志后，发现有“FileNotFound”异常，相关日志如下所示： 2016-11-22 23:58:03,694 | WARN | [qtp55429210-232] | /history/application_1479662594976_0001/stages/stage/ | org.sparkproject.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:628) java.io.FileNotFoundException: ${BIGDATA_HOME}/tmp/spark/jobHistoryTemp/blockmgr-5f1f6aca-2303-4290-9845-88fa94d78480/09/temp_shuffle_11f82aaf-e226-46dc-b1f0-002751557694 (No such file or directory)

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-手导出IoTDB数据:前提条件

前提条件已安装客户端，请参见。例如安装目录为“/opt/client”，以下操作的客户端目录只是举例，请根据实际安装目录修改。各组件业务用户由MRS集群管理员根据业务需要创建，具体操作请参见。安全模式下，“机机”用户需要下载keytab文件，具体操作请参见。“人机”用户第一次登录时需修改密码。服务端默认开启了SSL，需参考IoTDB客户端使用实践章节生成“truststore.jks”证书，并复制到“客户端安装目录/IoTDB/iotdb/conf”目录下。

MAPREDUCE服务 MRS IoTDB运维管理
MAPREDUCE服务 MRS-迁移MRS集群内ClickHouse数据至其他MRS集群:迁移整体流程

迁移整体流程迁移整体流程和步骤参考如下：图2 迁移流程图表1 迁移流程说明阶段流程说明步骤1：源集群和目标集群网络打通将源ClickHouse集群和目标ClickHouse集群的网络需要打通，保证两个集群ClickHouse实例节点网络可以互通。步骤2：在目标集群配置文件中增加源集群的ZooKeeper信息通过在目标集群的ClickHouse配置文件中添加源集群的ZooKeeper信息，将源集群中的ZooKeeper作为迁移过程中的辅助ZooKeeper。步骤3：迁移源ClickHouse集群下数据库和表的元数据信息到目标集群执行元数据迁移脚本，将源集群中的ClickHouse数据库和表的数据库名、表名、表结构等元数据信息迁移到目标集群。步骤4：迁移源ClickHouse集群下数据库和表数据到目标集群执行数据迁移脚本，将源集群中的ClickHouse数据库和表的数据迁移至目标集群。

MAPREDUCE服务 MRS ClickHouse运维管理
MAPREDUCE服务 MRS-迁移MRS集群内ClickHouse数据至其他MRS集群:操作场景

操作场景场景一：随着MRS ClickHouse业务数量的增长，原有集群的存储和计算资源已不满足业务需求，需要对集群进行拆分，将部分用户业务及数据库数据迁移到新建集群中。场景二：MRS ClickHouse集群后端主机所在机房需要搬迁，需要将ClickHouse集群整体迁移到另外一个机房的新集群当中。为了解决上述场景下对搬迁能力的要求，MRS提供了ClickHouse集群数据一键式工具搬迁能力，将源集群中的ClickHouse数据库、表对象DDL、业务数据迁移到新建集群中。

MAPREDUCE服务 MRS ClickHouse运维管理
MAPREDUCE服务 MRS-迁移MRS集群内ClickHouse数据至其他MRS集群:迁移方案原理介绍

迁移方案原理介绍 Replicated*MergeTree引擎的复制表迁移： ClickHouse利用ZooKeeper将同一分片下不同副本的Replicated*MergeTree引擎表数据自动进行同步，本迁移方案利用该特性进行数据迁移。大致逻辑步骤如下：首先，在目标集群的配置文件中添加源集群的ZooKeeper信息作为辅助ZooKeeper。其次，再在目标集群中创建和源集群相同ZooKeeper路径不同副本并且表结构和源集群一致的临时表。临时表创建完成源集群中的数据将会自动同步到临时表。最后，等待源集群数据同步到目标集群的临时表完成后，将目标集群中的临时表数据复制到正式表即可。图1 Replicated*MergeTree引擎表迁移架构图分布式表迁移：分布式表不涉及表数据，只涉及表的元数据信息，迁移过程中会将源集群ClickHouse分布式表的元数据信息导出，然后将元数据信息修改为目标集群的ZooKeeper路径和副本，根据修改后的元数据信息在目标集群新建表即可。非复制表和物化视图迁移：针对非复制表和物化视图采用调用remote函数方式进行数据迁移。上述迁移的操作步骤通过迁移工具脚本做了封装处理，只需修改相关配置文件执行迁移脚本即可完成一键式迁移操作，具体可以参考操作步骤说明。

MAPREDUCE服务 MRS ClickHouse运维管理
MAPREDUCE服务 MRS-使用Loader从HDFS/OBS导入数据到HBase:前提条件

前提条件创建或获取该任务中创建Loader作业的业务用户和密码。确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。确保用户已授权访问作业执行时操作的HBase表或phoenix表。检查磁盘空间，确保没有出现告警且余量满足导入、导出数据的大小。使用Loader从HDFS/OBS导入数据时，确保HDFS/OBS输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。如果设置的作业需要使用指定YARN队列功能，该用户需要已授权有相关YARN队列的权限。设置任务的用户需要获取该任务的执行权限，并获取该任务对应的连接的使用权限。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-配置列统计值直方图Histogram用以增强CBO准确度:配置场景

配置场景 Spark优化sql的执行，一般的优化规则都是启发式的优化规则，启发式的优化规则，仅仅根据逻辑计划本身的特点给出优化，没有考虑数据本身的特点，也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则（CBO）。CBO会收集表和列的统计信息，结合算子的输入数据集来估计每个算子的输出条数以及字节大小，这些就是执行一个算子的代价。 CBO会调整执行计划，来最小化端到端的查询时间，中心思路2点：尽早过滤不相关的数据。最小化每个算子的代价。 CBO优化过程分为2步：收集统计信息。根据输入的数据集估算特定算子的输出数据集。表级别统计信息包括：记录条数；表数据文件的总大小。列级别统计信息包括：唯一值个数；最大值；最小值；空值个数；平均长度；最大长度；直方图。有了统计信息后，就可以估计算子的执行代价了。常见的算子包括过滤条件Filter算子和Join算子。直方图为列统计值的一种，可以直观的描述列数据的分布情况，将列的数据从最小值到最大值划分为事先指定数量的槽位（bin），计算各个槽位的上下界的值，使得全部数据都确定槽位后，所有槽位中的数据数量相同（等高直方图）。有了数据的详细分布后，各个算子的代价估计能更加准确，优化效果更好。该特性可以通过下面的配置项开启： spark.sql.statistics.histogram.enabled：指定是否开启直方图功能，默认为false。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HDFS客户端使用实践:HDFS客户端常用命令

HDFS客户端常用命令常用的HDFS客户端命令如下表所示。更多命令可参考https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/CommandsManual.html#User_Commands 表1 HDFS客户端常用命令命令说明样例 hdfs dfs -mkdir 文件夹名称创建文件夹 hdfs dfs -mkdir /tmp/mydir hdfs dfs -ls 文件夹名称查看文件夹 hdfs dfs -ls /tmp hdfs dfs -put 客户端节点上本地文件 HDFS指定路径上传本地文件到HDFS指定路径 hdfs dfs -put /opt/test.txt /tmp 上传客户端节点“/opt/test.txt”文件到HDFS的“/tmp”路径下 hdfs dfs -get hdfs指定文件客户端节点上指定路径下载HDFS文件到本地指定路径 hdfs dfs -get /tmp/test.txt /opt/ 下载HDFS的“/tmp/test.txt”文件到客户端节点的“/opt”路径下 hdfs dfs -rm -r -f hdfs指定文件夹删除文件夹 hdfs dfs -rm -r -f /tmp/mydir hdfs dfs -chmod 权限参数文件目录为用户设置HDFS目录权限 hdfs dfs -chmod 700 /tmp/test

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HDFS客户端使用实践:使用HDFS客户端

使用HDFS客户端安装客户端，具体请参考安装MRS客户端章节。以客户端安装用户，登录安装客户端的节点。执行以下命令，切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户直接执行HDFS Shell命令。例如： hdfs dfs -ls /

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Flink SQL语法增强:FlinkSQL支持设置Source的并发

FlinkSQL支持设置Source的并发本章节适用于MRS 3.3.0及以后版本。 FlinkSQL支持通过使用参数“source.parallelism”设置Source算子的并发数，解决下游算子的并发数引起的一些问题，例如下游算子发送数据倾斜、背压、作业性能慢等问题。该特性会将Source和下游算子的Forward分区改为Rebalance分区，所以当Source算子的并发数和下游算子的并发数（parallelism数）不一致时，且作业不允许数据乱序，需要在启用该特性的同时开启DISTRIBUTEBY特性，可参考Flink SQL语法增强。如设置Source并发数为“2”并开启DISTRIBUTEBY特性： CREATE TABLE KafkaSource ( `user_id` VARCHAR, `user_name` VARCHAR, `age` INT ) WITH ( 'connector' = 'kafka', 'topic' = 'test_source', 'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号', 'properties.group.id' = 'testGroup', 'scan.startup.mode' = 'latest-offset', 'format' = 'csv', 'properties.sasl.kerberos.service.name' = 'kafka', 'properties.security.protocol' = 'SASL_PLAINTEXT', 'properties.kerberos.domain.name' = 'hadoop.系统域名', -- 设置Source并发数 'source.parallelism' = '2' ); CREATE TABLE KafkaSink( `user_id` VARCHAR, `user_name` VARCHAR, `age` INT ) WITH ( 'connector' = 'kafka', 'topic' = 'test_sink', 'properties.bootstrap.servers' = 'Kafka的Broker实例业务IP:Kafka端口号', 'value.format' = 'csv', 'properties.sasl.kerberos.service.name' = 'kafka', 'properties.security.protocol' = 'SASL_PLAINTEXT', 'properties.kerberos.domain.name' = 'hadoop.系统域名' ); -- Insert into KafkaSink select user_id, user_name, age from KafkaSource;（未开启DISTRIBUTEBY特性） -- 开启DISTRIBUTEBY特性 Insert into KafkaSink select/*+ DISTRIBUTEBY('user_id') */ user_id, user_name, age from KafkaSource;

MAPREDUCE服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线