华为云用户手册

MAPREDUCE服务 MRS-Doris应用开发简介:Doris样例工程介绍

Doris样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下Doris相关样例工程：表1 Doris相关样例工程样例工程位置描述 doris-examples/doris-example Doris数据读写操作的应用开发示例。通过调用Doris接口可实现创建用户表、向表中插入数据、查询表数据、删除表等功能，相关业务场景介绍请参见Doris JDBC接口调用样例程序。 springboot/doris-examples Doris数据读写操作的SpringBoot应用开发示例。提供Doris对接SpringBoot的样例，样例介绍请参见配置并导入SpringBoot样例工程。

MAPREDUCE服务 MRS Doris开发指南（安全模式）
MAPREDUCE服务 MRS-Doris应用开发简介:常用概念

常用概念在Doris中，数据都以表（Table）的形式进行逻辑上的描述。 Row&Column 一张表包括行（Row）和列（Column）： Row：即用户的一行数据。 Column：用于描述一行数据中不同的字段。 Column可以分为两大类：Key和Value。从业务角度看，Key和Value可以分别对应维度列和指标列。从聚合模型的角度来说，Key列相同的行，会聚合成一行。其中Value列的聚合方式由用户在建表时指定。 Tablet&Partition 在Doris的存储引擎中，用户数据被水平划分为若干个数据分片（Tablet，也称作数据分桶）。每个Tablet包含若干数据行。各个Tablet之间的数据没有交集，并且在物理上是独立存储的。多个Tablet在逻辑上归属于不同的分区（Partition）。一个Tablet只属于一个Partition，而一个Partition包含若干个Tablet。因为Tablet在物理上是独立存储的，所以可以视为Partition在物理上也是独立。Tablet是数据移动、复制等操作的最小物理存储单元。若干个Partition组成一个Table。Partition可以视为是逻辑上最小的管理单元。数据的导入与删除，仅能针对一个Partition进行。数据模型 Doris的数据模型主要分为三类：Aggregate、Unique、Duplicate。 Aggregate模型导入数据时，对于Key列相同的行会聚合成一行，而Value列会按照设置的AggregationType进行聚合。 AggregationType目前有以下四种聚合方式： SUM：求和，多行的Value进行累加。 REPLACE：替代，下一批数据中的Value会替换之前导入过的行中的Value。 MAX：保留最大值。 MIN：保留最小值。 Unique模型在某些多维分析场景下，用户更关注的是如何保证Key的唯一性，即如何获得Primary Key唯一性约束。因此，引入了Unique数据模型。读时合并 Unique模型的读时合并实现完全可以用Aggregate模型中的REPLACE方式替代。其内部的实现方式和数据存储方式也完全一样。写时合并 Unique模型的写时合并实现，查询性能更接近于Duplicate模型，在有主键约束需求的场景上相比Aggregate模型有较大的查询性能优势，尤其是在聚合查询以及需要用索引过滤大量数据的查询中。在开启了写时合并选项的Unique表上，数据在导入阶段就会去将被覆盖和被更新的数据进行标记删除，同时将新的数据写入新的文件。在查询的时候，所有被标记删除的数据都会在文件级别被过滤掉，读取出来的数据就都是最新的数据，消除掉了读时合并中的数据聚合过程，并且能够在很多情况下支持多种谓词的下推。因此在许多场景都能带来比较大的性能提升，尤其是在有聚合查询的情况下。 Duplicate模型在某些多维分析场景下，数据既没有主键，也没有聚合需求。可以引入Duplicate数据模型来满足这类需求。这种数据模型区别于Aggregate和Unique模型。数据完全按照导入文件中的数据进行存储，不会有任何聚合。即使两行数据完全相同，也都会保留。而在建表语句中指定的DUPLICATE KEY，只是用来指明底层数据按照那些列进行排序。数据模型的选择建议因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。 Aggregate模型可以通过预聚合，极大地降低聚合查询时所需扫描的数据量和查询的计算量，非常适合有固定模式的报表类查询场景。但是该模型对count(*) 查询不友好。同时因为固定了Value列上的聚合方式，在进行其他类型的聚合查询时，需要考虑语意正确性。 Unique模型针对需要唯一主键约束的场景，可以保证主键唯一性约束。但是无法利用ROLLUP等预聚合带来的查询优势。对于聚合查询有较高性能需求的用户，推荐使用自1.2版本加入的写时合并实现。 Unique模型仅支持整行更新，如果用户既需要唯一主键约束，又需要更新部分列（例如将多张源表导入到一张Doris表的情形），则可以考虑使用Aggregate模型，同时将非主键列的聚合类型设置为REPLACE_IF_NOT_NULL。 Duplicate适合任意维度的Ad-hoc查询。虽然同样无法利用预聚合的特性，但是不受聚合模型的约束，可以发挥列存模型的优势（只读取相关列，而不需要读取所有Key列）。

MAPREDUCE服务 MRS Doris开发指南（安全模式）
MAPREDUCE服务 MRS-Spark应用开发流程介绍

Spark应用开发流程介绍 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件，其应用开发流程都是相同的。开发流程中各阶段的说明如图1和表1所示。图1 Spark应用程序开发流程表1 Spark应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解Spark的基本概念，根据实际场景选择需要了解的概念，分为Spark Core基本概念、Spark SQL基本概念和Spark Streaming基本概念。基本概念准备开发和运行环境 Spark的应用程序支持使用Scala、Java、Python三种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。Spark的运行环境即Spark客户端，请根据指导完成客户端的安装和配置。准备本地应用开发环境准备工程 Spark提供了不同场景下的样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Spark工程。准备本地应用开发环境新建Spark样例工程（可选）根据场景开发工程提供了Scala、Java、Python三种不同语言的样例工程，还提供了Streaming、SQL、JDBC客户端程序以及Spark on HBase四种不同场景的样例工程。帮助用户快速了解Spark各部件的编程接口。开发Spark应用编译并运行程序指导用户将开发好的程序编译并提交运行。调测Spark应用查看程序运行结果程序运行结果会写在用户指定的路径下。用户还可以通过UI查看应用运行情况。调优程序您可以根据程序运行情况，对程序进行调优，是其性能满足业务场景诉求。调优完成后，请重新进行编译和运行。 Spark2x性能调优父主题： Spark2x开发指南（普通模式）

MAPREDUCE服务 MRS Spark2x开发指南（普通模式）
MAPREDUCE服务 MRS-调测springboot样例程序:在Linux环境中调测ClickHouse Springboot样例程序

在Linux环境中调测ClickHouse Springboot样例程序 ClickHouse springboot应用程序也支持在Linux环境中运行。在程序代码完成开发后，您可以上传Jar包至准备好的Linux运行环境中运行。前提条件 Linux环境已安装JDK，版本号需要和IntelliJ IDEA导出Jar包使用的JDK版本一致，并设置好Java环境变量。编译并运行程序在IDEA中右侧单击“Maven”，展开“Lifecycle”，双击“package”，对当前工程进行打包。使用root用户登录ClickHouse客户端节点，创建运行目录，例如“/opt/test”，在IDEA的“target”目录下获取带有“-with-dependencies”的jar包，并将jar包和idea中conf文件夹一同上传到“/opt/test”目录，如：执行如下命令，配置环境变量并运行jar包： cd 客户端安装路径 source bigdata_env cd /opt/test java -jar clickhouse-examples-1.0-SNAPSHOT-jar-with-dependencies.jar 显示结果如下：调用ClickHouse的SpringBoot样例接口触发样例代码运行： Windows环境运行方式：打开浏览器，输入：http://ClickHouse客户端节点IP:8080/clickhouse/executeQuery，查看浏览器返回信息： ClickHouse springboot client runs normally. Linux环境下执行运行方式：登录ClickHouse客户端节点，执行如下命令，查看linux下shell日志打印和日志文件打印： curl http://localhost:8080/clickhouse/executeQuery vi clickhouse-springboot-example.log

MAPREDUCE服务 MRS 调测ClickHouse应用
MAPREDUCE服务 MRS-配置Spark Python3样例工程:操作步骤

操作步骤客户端机器必须安装有Python3，其版本不低于3.6。在客户端机器的命令行终端输入python3可查看Python版本号。如下显示Python版本为3.8.2。 Python 3.8.2 (default, Jun 23 2020, 10:26:03) [GCC 4.8.5 20150623 (Red Hat 4.8.5-36)] on linux Type "help", "copyright", "credits" or "license" for more information. 客户端机器必须安装有setuptools，版本为47.3.1。具体软件，请到对应的官方网站获取。 https://pypi.org/project/setuptools/#files 将下载的setuptools压缩文件复制到客户端机器上，解压后进入解压目录，在客户端机器的命令行终端执行python3 setup.py install。如下内容表示安装setuptools的47.3.1版本成功。 Finished processing dependencies for setuptools==47.3.1 安装Python客户端到客户端机器。参考获取MRS应用开发样例工程，获取样例代码解压目录中“src\hive-examples”目录下的样例工程文件夹“python3-examples”。进入“python3-examples”文件夹。根据python3的版本，选择进入“dependency_python3.6”或“dependency_python3.7”或“dependency_python3.8”文件夹。执行whereis easy_install命令，找到easy_install程序路径。如果有多个路径，使用easy_install --version确认选择setuptools对应版本的easy_install，如/usr/local/bin/easy_install 使用对应的easy_install命令，依次安装dependency_python3.x文件夹下的egg文件。如： /usr/local/bin/easy_install future-0.18.2-py3.8.egg 输出以下关键内容表示安装egg文件成功。 Finished processing dependencies for future==0.18.2

MAPREDUCE服务 MRS 准备Spark应用开发环境
MAPREDUCE服务 MRS-准备本地应用开发环境

Kafka开发应用时，需要准备的开发和运行环境如表1所示：表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows 7以上版本。运行环境：Windows系统或Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装和配置IntelliJ IDEA 开发环境的基本配置。版本要求：JDK使用1.8版本，IntelliJ IDEA使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端： Oracle JDK：支持1.8版本 IBM JDK：支持1.8.5.11版本 TaiShan客户端： OpenJDK：支持1.8.0_272版本说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。

MAPREDUCE服务 MRS 准备Kafka应用开发环境
MAPREDUCE服务 MRS-Phoenix命令行操作介绍:操作步骤

操作步骤以客户端安装用户，登录安装HBase客户端的节点。进入HBase客户端安装目录：例如：cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建HBase表的权限，具体请参见创建角色配置拥有对应权限的角色，参考创建用户为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS 集群用户例如，kinit hbaseuser。直接执行Phoenix客户端命令。 sqlline.py 建表： CREATE TABLE TEST (id VARCHAR PRIMARY KEY, name VARCHAR); 插入数据： UPSERT INTO TEST(id,name) VALUES ('1','jamee'); 查询数据： SELECT * FROM TEST; 删表： DROP TABLE TEST; 退出Phoenix命令行。 !quit

MAPREDUCE服务 MRS HBase应用开发常见问题
MAPREDUCE服务 MRS-HBase数据读写样例程序开发思路:场景说明

场景说明假定用户开发一个应用程序，用于管理企业中的使用A业务的用户信息，如表1所示，A业务操作流程如下：创建用户信息表。在用户信息中新增用户的学历、职称等信息。根据用户编号查询用户姓名和地址。根据用户姓名进行查询。查询年龄段在[20-29]之间的用户信息。数据统计，统计用户信息表的人员数、年龄最大值、年龄最小值、平均年龄。用户销户，删除用户信息表中该用户的数据。 A业务结束后，删除用户信息表。表1 用户信息编号姓名性别年龄地址 12005000201 张三男 19 广东省深圳市 12005000202 李婉婷女 23 河北省石家庄市 12005000203 王明男 26 浙江省宁波市 12005000204 李刚男 18 湖北省襄阳市 12005000205 赵恩如女 21 江西省上饶市 12005000206 陈龙男 32 湖南省株洲市 12005000207 周微女 29 河南省南阳市 12005000208 杨艺文女 30 重庆市开县 12005000209 徐兵男 26 陕西省渭南市 12005000210 肖凯男 25 辽宁省大连市

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-HBase数据读写样例程序开发思路:开发思路

开发思路根据上述的业务场景进行功能分解，需要开发的功能点如表2所示。表2 在HBase中开发的功能序号步骤代码实现 1 根据表1中的信息创建表。请参见创建HBase表。 2 导入用户数据。请参见向HBase表中插入数据。 3 增加“教育信息”列族，在用户信息中新增用户的学历、职称等信息。请参见修改HBase表。 4 根据用户编号查询用户姓名和地址。请参见使用Get API读取HBase表数据。 5 根据用户姓名进行查询。请参见使用Filter过滤器读取HBase表数据。 6 为提升查询性能，创建二级索引或者删除二级索引。请参见创建HBase表二级索引和基于二级索引查询HBase表数据。 7 用户销户，删除用户信息表中该用户的数据。请参见删除HBase表数据。 8 A业务结束后，删除用户信息表。请参见删除HBase表。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-YARN REST API接口介绍:操作步骤

操作步骤获取运行在Yarn上的任务的具体信息。命令： curl -k -i --negotiate -u : "https://10-120-85-2:8090/ws/v1/cluster/apps/" 其中10-120-85-2为ResourceManager主节点的hostname，8090为ResourceManager的端口号。用户能看到哪个队列的任务，要看这个用户是否有这个队列的admin权限。如果当前组件使用了Ranger进行权限控制，需基于Ranger配置相关策略进行权限管理。运行结果： { "apps": { "app": [ { "id": "application_1461743120947_0001", "user": "spark", "name": "Spark-JDBCServer", "queue": "default", "state": "RUNNING", "finalStatus": "UNDEFINED", "progress": 10, "trackingUI": "ApplicationMaster", "trackingUrl": "https://10-120-85-2:8090/proxy/application_1461743120947_0001/", "diagnostics": "AM is launched. ", "clusterId": 1461743120947, "applicationType": "SPARK", "applicationTags": "", "startedTime": 1461804906260, "finishedTime": 0, "elapsedTime": 6888848, "amContainerLogs": "https://10-120-85-2:8044/node/containerlogs/container_e12_1461743120947_0001_01_000001/spark", "amHostHttpAddress": "10-120-85-2:8044", "allocatedMB": 1024, "allocatedVCores": 1, "runningContainers": 1, "memorySeconds": 7053309, "vcoreSeconds": 6887, "preemptedResourceMB": 0, "preemptedResourceVCores": 0, "numNonAMContainerPreempted": 0, "numAMContainerPreempted": 0, "resourceRequests": [ { "capability": { "memory": 1024, "virtualCores": 1 }, "nodeLabelExpression": "", "numContainers": 0, "priority": { "priority": 0 }, "relaxLocality": true, "resourceName": "*" } ], "logAggregationStatus": "NOT_START", "amNodeLabelExpression": "" }, { "id": "application_1461722876897_0002", "user": "admin", "name": "QuasiMonteCarlo", "queue": "default", "state": "FINISHED", "finalStatus": "SUCCEEDED", "progress": 100, "trackingUI": "History", "trackingUrl": "https://10-120-85-2:8090/proxy/application_1461722876897_0002/", "diagnostics": "Attempt recovered after RM restart", "clusterId": 1461743120947, "applicationType": "MAPREDUCE", "applicationTags": "", "startedTime": 1461741052993, "finishedTime": 1461741079483, "elapsedTime": 26490, "amContainerLogs": "https://10-120-85-2:8044/node/containerlogs/container_e11_1461722876897_0002_01_000001/admin", "amHostHttpAddress": "10-120-85-2:8044", "allocatedMB": -1, "allocatedVCores": -1, "runningContainers": -1, "memorySeconds": 158664, "vcoreSeconds": 52, "preemptedResourceMB": 0, "preemptedResourceVCores": 0, "numNonAMContainerPreempted": 0, "numAMContainerPreempted": 0, "amNodeLabelExpression": "" } ] } } 结果分析：通过这个接口，可以查询当前集群中Yarn上的任务，并且可以得到如下表1。表1 常用信息参数参数描述 user 运行这个任务的用户。 applicationType 例如MAPREDUCE或者SPARK等。 finalStatus 可以知道任务是成功还是失败。 elapsedTime 任务运行的时间。获取Yarn资源的总体信息。命令： curl -k -i --negotiate -u : "https://10-120-85-102:8090/ws/v1/cluster/metrics" 运行结果： { "clusterMetrics": { "appsSubmitted": 2, "appsCompleted": 1, "appsPending": 0, "appsRunning": 1, "appsFailed": 0, "appsKilled": 0, "reservedMB": 0, "availableMB": 23552, "allocatedMB": 1024, "reservedVirtualCores": 0, "availableVirtualCores": 23, "allocatedVirtualCores": 1, "containersAllocated": 1, "containersReserved": 0, "containersPending": 0, "totalMB": 24576, "totalVirtualCores": 24, "totalNodes": 3, "lostNodes": 0, "unhealthyNodes": 0, "decommissionedNodes": 0, "rebootedNodes": 0, "activeNodes": 3, "rmMainQueueSize": 0, "schedulerQueueSize": 0, "stateStoreQueueSize": 0 } } 结果分析：通过这个接口，可以查询当前集群中如表2。表2 常用信息参数参数描述 appsSubmitted 已经提交的任务数。 appsCompleted 已经完成的任务数。 appsPending 正在挂起的任务数。 appsRunning 正在运行的任务数。 appsFailed 已经失败的任务数。 appsKilled 已经被kill的任务数。 totalMB Yarn资源总的内存。 totalVirtualCores Yarn资源总的VCore数。

MAPREDUCE服务 MRS YARN接口介绍
MAPREDUCE服务 MRS-创建HBase全局二级索引:功能简介

功能简介通过调用“org.apache.hadoop.hbase.hindex.global.GlobalIndexAdmin”中的方法进行HBase全局二级索引的管理，该类中addIndices用于创建全局二级索引。全局二级索引的创建需要指定索引列、覆盖列（可选）、索引表预分区（可选，建议指定）。在已有存量数据的表上创建全局二级索引，需要创建索引预分区，防止索引表出现热点，索引表数据的rowkey由索引列构成，并且包含分隔符，格式为“\x01索引值\x00”，因此预分区需要指定成对应格式，例如，当使用id列和age列作为索引列时，两个列均为整数，使用id列完成预分区，可以指定索引表预分区点为： \x010,\x011,\x012....

MAPREDUCE服务 MRS HBase全局二级索引样例程序
MAPREDUCE服务 MRS-创建Doris连接

创建Doris连接以下代码片段在“JDBCExample”类的“createConnection”方法中。 USER和PASSWD为在创建连接时用于进行安全认证的用户名和密码。 Class.forName(JDBC_DRIVER); String dbUrl = String.format(DB_URL_PATTERN, HOST, PORT); connection = DriverManager.getConnection(dbUrl, USER, PASSWD); 父主题： Doris JDBC接口调用样例程序

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-使用SpringBoot生产消费Kafka集群数据:代码样例

代码样例通过SpringBoot实现Kafka生产消费的样例代码如下： @RestController public class MessageController { private final static Logger LOG = LoggerFactory.getLogger(MessageController.class); @Autowired private KafkaProperties kafkaProperties; @GetMapping("/produce") public String produce() { Producer producerThread = new Producer(); producerThread.init(this.kafkaProperties); producerThread.start(); String message = "Start to produce messages"; LOG.info(message); return message; } @GetMapping("/consume") public String consume() { Consumer consumerThread = new Consumer(); consumerThread.init(this.kafkaProperties); consumerThread.start(); LOG.info("Start to consume messages"); // 等到180s后将consumer关闭，实际执行过程中可修改 try { Thread.sleep(consumerThread.getThreadAliveTime()); } catch (InterruptedException e) { LOG.info("Occurred InterruptedException: ", e); } finally { consumerThread.close(); } return String.format("Finished consume messages"); } }

MAPREDUCE服务 MRS 开发Kafka应用
MAPREDUCE服务 MRS-准备HBase应用开发和运行环境:准备开发环境

准备开发环境在进行二次开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows 7以上版本。运行环境：Windows系统或Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置，版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 用于开发HBase应用程序的工具。版本要求：2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。安装Junit插件开发环境的基本配置。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件。支持7-Zip 16.04版本。

MAPREDUCE服务 MRS 准备HBase应用开发环境
MAPREDUCE服务 MRS-查找Manager用户:代码样例

代码样例以下代码片段是查找用户的示例，在“rest”包的“UserManager”类的main方法中。 //访问Manager接口完成查找用户列表 operationName = "QueryUserList"; operationUrl = webUrl + QUERY_USER_LIST_URL; String responseLineContent = httpManager.sendHttpGetRequest(httpClient, operationUrl, operationName); LOG.info("The {} response is {}.", operationName, responseLineContent);

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-MRS组件应用开发简介:MRS组件应用开发流程说明

MRS组件应用开发流程说明通常MRS组件应用开发流程如下所示，各组件应用的开发编译操作可参考组件开发指南对应章节。图1 MRS组件应用开发流程表1 MRS组件应用开发流程说明阶段说明准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用IntelliJ IDEA工具，同时本地需完成JDK、Maven等初始配置。准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括用于安全认证的用户文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通。配置并导入样例工程 MRS提供了不同组件场景下的多种样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。配置安全认证连接开启了Kerberos认证的MRS集群时，应用程序中需配置具有相关资源访问权限的用户进行安全认证。根据业务场景开发程序根据实际业务场景开发程序，调用组件接口实现对应功能。编译并运行程序将开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-分布式Scan HBase表:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中HBaseDistributedScanExample文件： # -*- coding:utf-8 -*- # -*- coding:utf-8 -*- """ 【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("JavaHBaseDistributedScan")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.hbasecontext.JavaHBaseDistributedScanExample') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.JavaHBaseDistributedScan().execute(spark._jsc, sys.argv) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-分布式Scan HBase表:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-分布式Scan HBase表:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端$SPARK_HOME目录下，以下命令均在$SPARK_HOME目录执行，Java接口对应的类名前有Java字样，请参考具体样例代码进行书写。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --class com.huawei.bigdata.spark.examples.hbasecontext.JavaHBaseDistributedScanExample SparkOnHbaseJavaExample-1.0.jar ExampleAvrotable python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars SparkOnHbaseJavaExample-1.0.jar HBaseDistributedScanExample.py ExampleAvrotable yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --class com.huawei.bigdata.spark.examples.hbasecontext.JavaHBaseDistributedScanExample SparkOnHbaseJavaExample-1.0.jar ExampleAvrotable python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars SparkOnHbaseJavaExample-1.0.jar HBaseDistributedScanExample.py ExampleAvrotable

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-在本地Windows环境中调测Oozie应用:操作步骤

操作步骤在Windows本地运行程序，需要配置https ssl证书。登录集群任意节点，进入如下目录下载ca.crt文件。 cd ${BIGDATA_HOME}/om-agent_8.1.2.2/nodeagent/security/cert/subcert/certFile/ 将ca.crt文件下载到本地，以管理员的身份打开cmd。输入如下命令： keytool -import -v -trustcacerts -alias ca -file "D:\xx\ca.crt" -storepass changeit -keystore "%JAVA_HOME%\jre\lib\security\cacerts" 其中“D:\xx\ca.crt”是实际ca.crt文件存放路径；“%JAVA_HOME% ”为jdk安装路径。在开发环境中（例如IDEA中），右击OozieRestApiMain.java，单击“Run 'OozieRestApiMain.main()'”运行对应的应用程序工程。使用Oozie客户端执行以下命令： oozie job -oozie https://Oozie业务IP:21003/oozie -config job.properties -run 其中需要提前将待使用样例工程目录“src\main\resources”中的“job.properties”文件复制到Oozie客户端所在目录。

MAPREDUCE服务 MRS 调测Oozie应用
MAPREDUCE服务 MRS-BulkLoad接口使用:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行，Java接口对应的类名前有Java字样，请参考具体样例代码进行书写。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --class com.huawei.bigdata.spark.examples.hbasecontext.JavaHBaseBulkLoadExample SparkOnHbaseJavaExample-1.0.jar /tmp/hfile bulkload-table-test python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars SparkOnHbaseJavaExample-1.0.jar HBaseBulkLoadExample.py /tmp/hfile bulkload-table-test yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --class com.huawei.bigdata.spark.examples.hbasecontext.JavaHBaseBulkLoadExample SparkOnHbaseJavaExample-1.0.jar /tmp/hfile bulkload-table-test python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars SparkOnHbaseJavaExample-1.0.jar HBaseBulkLoadExample.py /tmp/hfile bulkload-table-test

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-BulkLoad接口使用:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-BulkLoad接口使用:场景说明

场景说明用户可以在Spark应用程序中使用HBaseContext的方式去使用HBase，将要插入的数据的rowKey构造成rdd，然后通过HBaseContext的bulkLoad接口将rdd写入HFile中。将生成的HFile导入HBase表的操作采用如下格式的命令，不属于本接口范围，不在此进行详细说明： hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles {hfilePath} {tableName}

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-BulkLoad接口使用:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中HBaseBulkLoadPythonExample文件： # -*- coding:utf-8 -*- """ 【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现 """ from py4j.java_gateway import java_import from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession\ .builder\ .appName("JavaHBaseBulkLoadExample")\ .getOrCreate() # 向sc._jvm中导入要运行的类 java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.HBaseBulkLoadPythonExample') # 创建类实例并调用方法，传递sc._jsc参数 spark._jvm.HBaseBulkLoadPythonExample().hbaseBulkLoad(spark._jsc, sys.argv[1], sys.argv[2]) # 停止SparkSession spark.stop()

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-准备本地应用开发环境

准备本地应用开发环境在进行二次开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统 Windows系统，支持Windows 7以上版本。开发和运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK，支持1.8版本；IBM JDK，支持1.8.5.11版本。 TaiShan客户端：OpenJDK，支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。安装和配置IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。准备开发用户参考准备MRS应用开发用户进行操作，准备用于应用开发的集群用户并授予相应权限。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-zip 16.04版本。父主题：准备Oozie应用开发环境

MAPREDUCE服务 MRS 准备Oozie应用开发环境
MAPREDUCE服务 MRS-删除HBase表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testDelete方法中 public void testDelete() { LOG.info("Entering testDelete."); byte[] rowKey = Bytes.toBytes("012005000201"); Table table = null; try { // Instantiate an HTable object. table = conn.getTable(tableName); // Instantiate an Delete object. Delete delete = new Delete(rowKey); // Submit a delete request. table.delete(delete); LOG.info("Delete table successfully."); } catch (IOException e) { LOG.error("Delete table failed " ,e); } finally { if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed " ,e); } } } LOG.info("Exiting testDelete."); } 如果被删除的cell所在的列族上设置了二级索引，也会同步删除索引数据。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-删除HBase表:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的dropTable方法中。 public void dropTable() { LOG.info("Entering dropTable."); Admin admin = null; try { admin = conn.getAdmin(); if (admin.tableExists(tableName)) { // Disable the table before deleting it. admin.disableTable(tableName); // Delete table. admin.deleteTable(tableName);//注[1] } LOG.info("Drop table successfully."); } catch (IOException e) { LOG.error("Drop table failed " ,e); } finally { if (admin != null) { try { // Close the Admin object. admin.close(); } catch (IOException e) { LOG.error("Close admin failed " ,e); } } } LOG.info("Exiting dropTable."); }

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-运行Producer.java样例报错获取元数据失败“ERROR fetching topic metadata...”:解决步骤

解决步骤检查工程conf目录下“producer.properties”中配置的“bootstrap.servers”配置值中访问的IP和端口是否正确：如果IP与Kafka集群部署的业务IP不一致，那么需要修改为当前集群正确的IP地址。如果配置中的端口为21007（Kafka安全模式端口），那么修改该端口为9092（Kafka普通模式端口）。检查网络是否正常，确保当前机器能够正常访问Kafka集群。

MAPREDUCE服务 MRS Kafka应用开发常见问题
MAPREDUCE服务 MRS-准备ClickHouse应用开发和运行环境:准备开发环境

准备开发环境在进行应用开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows7以上版本。运行环境：Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。准备开发用户准备用于应用开发的ClickHouse集群用户并授予相应权限。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。

MAPREDUCE服务 MRS 准备ClickHouse应用开发环境
MAPREDUCE服务 MRS-MapReduce Action:参数解释

参数解释 MapReduce Action节点中包含的各参数及其含义，请参见表1。表1 参数含义参数含义 name map-reduce action的名称 resourceManager MapReduce ResourceManager地址 name-node HDFS NameNode地址 queueName 任务处理时使用的MapReduce队列名 mapred.mapper.class Mapper类名 mapred.reducer.class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示：该值来自“job.properties”所定义。例如：${nameNode}表示的就是“hdfs://hacluster”。（可参见job.properties）

MAPREDUCE服务 MRS Oozie样例代码说明

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线