华为云用户手册

MapReduce服务 MRS-Savepoints相关问题解决方案

Savepoints相关问题解决方案用户必须为job中的所有算子均分配ID吗？严格的说，用户只给有状态的算子分配IDs即可，因为在savepoint中仅包括有状态的算子的状态，没有状态的算子并不包含在savepoint中。在实际应用中，强烈建议用户给所有的算子均分配ID，因为有些Flink的内置算子，如window算子是有状态的。具体哪个算子是有状态的，哪个算子是无状态的，不是十分明显。如果用户十分确定某个算子是无状态的，该算子可以不调用uid()方法分配ID。如果用户在升级作业时新添加一个有状态的算子有什么影响？当用户在作业中新添加一个有状态的算子时，由于该算子是新添加的，无保存的旧状态，因此无状态恢复，从0开始运行。如果用户在升级作业时从作业中删除一个有状态的算子有什么影响？默认情况下，savepoint会尝试将所有保存的状态恢复。如果用户使用的savepoint中包含已经删除算子的状态，恢复将会失败。用户可以通过--allowNonRestoredState(简写为-n)参数跳过恢复已经删除的算子的状态： $ bin/flink run -s savepointPath -n [runArgs] 如果用户重新编排有状态的算子的顺序有什么影响？如果用户已经给这些算子分配IDs，那么这些状态会正常恢复。如果用户没有给这些算子分配IDs，这些算子将会按新的顺序自动分配新的ID，这将导致状态恢复失败。如果用户在作业中删除或添加或更改无状态算子的顺序有什么影响？如果用户已经给有状态的算子分配ID，那么无状态的算子并不会影响从savepoint进行状态恢复。如果用户没有分配IDs，有状态算子的IDs由于顺序变化可能会被分配新的IDs，这将导致状态恢复失败。如果用户在状态恢复时改变了算子的并发度会有什么影响？如果Flink版本高于1.2.0且不使用已经废弃的状态API，如checkpointed，用户可以从savepoint中进行状态恢复。否则，无法恢复。父主题： FAQ

MapReduce服务 MRS
MapReduce服务 MRS-为什么Flink Web页面无法直接连接:回答

回答由于浏览器所在的计算机IP地址未加到Web访问白名单导致。用户可以通过修改客户端的配置文件“conf/flink-conf.yaml”来解决问题。确认配置项“jobmanager.web.ssl.enabled”的值是否是“false”，若不是，请修改为“false”。确认配置项“jobmanager.web.access-control-allow-origin”和“jobmanager.web.allow-access-address”中是否已经添加浏览器所在的计算机IP地址。如果没有添加，可以通过这两项配置项进行添加。例如： jobmanager.web.access-control-allow-origin: 浏览器所在的计算机IP地址jobmanager.web.allow-access-address: 浏览器所在的计算机IP地址

MapReduce服务 MRS
MapReduce服务 MRS-Flink Client CLI介绍:注意事项

注意事项如果yarn-session.sh使用-z配置特定的zookeeper的namespace，则在使用flink run时必须使用-yid指出applicationID，使用-yz指出zookeeper的namespace，前后namespace保持一致。举例： bin/yarn-session.sh -z YARN101 bin/flink run -yid application_****_**** -yz YARN101 examples/streaming/WindowJoin.jar

MapReduce服务 MRS
MapReduce服务 MRS-如何处理blob.storage.directory配置/home目录时，启动yarn-session失败的问题:回答

回答建议将"blob.storage.directory"配置选项设置成“/tmp”或者“/opt/huawei/Bigdata/tmp”。当用户将"blob.storage.directory"配置选项设置成自定义目录时，需要手动赋予用户该目录的owner权限。以下以FusionInsight的admin用户为例。修改Flink客户端配置文件conf/flink-conf.yaml，配置blob.storage.directory: /home/testdir/testdirdir/xxx。创建目录/home/testdir（创建一层目录即可），设置该目录为admin用户所属。 /home/testdir/下的testdirdir/xxx目录在启动Flink集群时会在每个节点下自动创建。进入客户端路径，执行命令./bin/yarn-session.sh -jm 2048 -tm 3072，可以看到yarn-session正常启动并且成功创建目录。

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:数据规划

数据规划发布者Job使用自定义算子每秒钟产生10000条数据数据包含两个属性：分别是Int和String类型配置文件 nettyconnector.registerserver.topic.storage：设置NettySink的IP、端口及并发度信息在第三方注册服务器上的路径（必填），例如： nettyconnector.registerserver.topic.storage: /flink/nettyconnector nettyconnector.sinkserver.port.range：设置NettySink的端口范围（必填），例如： nettyconnector.sinkserver.port.range: 28444-28943 nettyconnector.sinkserver.subnet：设置网络所属域，例如： nettyconnector.sinkserver.subnet: 10.162.0.0/16 接口说明注册服务器接口注册服务器用来保存NettySink的IP、端口以及并发度信息，以便NettySource连接使用。为用户提供以下接口： public interface RegisterServerHandler { /** * 启动注册服务器 * @param configuration Flink的Configuration类型 */void start(Configuration configuration) throws Exception;/** *注册服务器上创建Topic节点（目录） * @param topic topic节点名称 */void createTopicNode(String topic) throw Exception;/***将信息注册到某个topic节点（目录）下* @param topic 需要注册到的目录* @param registerRecord 需要注册的信息*/void register(String topic, RegisterRecord registerRecord) throws Exception;/** *删除topic节点 * @param topic 待删除topic */ void deleteTopicNode(String topic) throws Exception;/** *注销注册信息 *@param topic 注册信息所在的topic *@param recordId 待注销注册信息ID */void unregister(String topic, int recordId) throws Exception;/** * 查寻信息* @param 查询信息所在的topic*@recordId 查询信息的ID*/RegisterRecord query(String topic, int recordId) throws Exception;/** * 查询某个Topic是否存在 * @param topic */Boolean isExist(String topic) throws Exception;/** *关闭注册服务器句柄 */void shutdown() throws Exception; 工程基于以上接口提供了ZookeeperRegisterHandler供用户使用。 NettySink算子 Class NettySink(String name, String topic, RegisterServerHandler registerServerHandler,int numberOfSubscribedJobs) name：为本NettySink的名称。 topic：为本NettySink产生数据的Topic，每个不同的NettySink（并发度除外）必须使用不同的TOPIC，否则会引起订阅混乱，数据无法正常分发。 registerServerHandler：为注册服务器的句柄。 numberOfSubscribedJobs：为订阅本NettySink的作业数量，该数量必须是明确的，只有当所有订阅者都连接上NettySink，NettySink才发送数据。 NettySource算子 Class NettySource(String name,String topic,RegisterServerHandler registerServerHandler) name：为本NettySource的名称，该NettySource必须是唯一的（并发度除外），否则，连接NettySink时会出现冲突，导致无法连接。 topic：订阅的NettySink的topic。 registerServerHandler：为注册服务器的句柄。 NettySource的并发度必须与NettySource的并发度相同，否则无法正常创建连接。

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:数据规划

数据规划 Flink样例工程的数据存储在Kafka组件中。向Kafka组件发送数据（需要有Kafka权限用户），并从Kafka组件接收数据。确保集群安装完成，包括HDFS、Yarn、Flink和Kafka。创建Topic。创建topic的命令格式： bin/kafka-topics.sh --create --zookeeper {zkQuorum}/kafka --partitions {partitionNum} --replication-factor {replicationNum} --topic {Topic} 表1 参数说明参数名说明 {zkQuorum} ZooKeeper集群信息，格式为IP:port。 {partitionNum} topic的分区数。 {replicationNum} topic中每个partition数据的副本数。 {Topic} topic名称。示例：在Kafka的客户端路径下执行命令，此处以ZooKeeper集群的IP:port是10.96.101.32:2181,10.96.101.251:2181,10.96.101.177:2181,10.91.8.160:2181，Topic名称为topic1的数据为例。 bin/kafka-topics.sh --create --zookeeper 10.96.101.32:2181,10.96.101.251:2181,10.96.101.177:2181,10.91.8.160:2181/kafka --partitions 5 --replication-factor 1 --topic topic1

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:场景说明

场景说明假定用户有某个网站周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Flink的DataStream应用程序实现如下功能： DataStream应用程序可以在Windows环境和Linux环境中运行。实时统计总计网购时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志。该日志文件在该样例程序中的data目录下获取。 LiuYang,female,20YuanJing,male,10GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20FangBo,female,50LiuYang,female,20YuanJing,male,10GuoYijun,male,50CaiXuyu,female,50FangBo,female,60 log2.txt：周日网民停留日志。该日志文件在该样例程序中的data目录下获取。 LiuYang,female,20YuanJing,male,10CaiXuyu,female,50FangBo,female,50GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20CaiXuyu,female,50FangBo,female,50LiuYang,female,20YuanJing,male,10FangBo,female,50GuoYijun,male,50CaiXuyu,female,50FangBo,female,60

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:数据规划

数据规划 DataStream样例工程的数据存储在文本中。将log1.txt和log2.txt放置在指定路径下，例如"/opt/log1.txt"和"/opt/log2.txt"。数据文件若存放在本地文件系统，需在所有部署Yarn NodeManager的节点指定目录放置，并设置运行用户访问权限。或将数据文件放置于HDFS，并指定程序中读取文件路径HDFS路径，例如"hdfs://hacluster/path/to/file"。

MapReduce服务 MRS
MapReduce服务 MRS-开发流程:Flink应用程序开发流程

Flink应用程序开发流程 Flink开发流程参考如下步骤：图1 Flink应用程序开发流程表1 Flink应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解Flink的基本概念。常用概念准备开发和运行环境 Flink的应用程序支持使用Scala、Java两种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。Flink的运行环境即Flink客户端，请根据指导完成客户端的安装和配置。准备开发和运行环境准备工程 Flink提供了样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Flink工程。配置并导入样例工程新建工程（可选）根据场景开发工程提供了Scala、Java两种不同语言的样例工程，帮助用户快速了解Flink各部件的编程接口。开发程序编译并运行程序指导用户将开发好的程序编译并提交运行。编包并运行程序查看程序运行结果程序运行结果会写在用户指定的路径下，用户还可以通过UI查看应用运行情况。查看调测结果调优程序您可以根据程序运行情况，对程序进行调优，使其性能满足业务场景需求。调优完成后，请重新进行编译和运行。组件操作指南中的“Flink性能调优”

MapReduce服务 MRS
MapReduce服务 MRS-新建工程（可选）:操作步骤

操作步骤打开IDEA工具，选择“Create New Project”。图1 创建工程在“New Project”页面，选择“Scala”开发环境，并选择“Scala Module”，然后单击“Next”。如果您需要新建Java语言的工程，选择对应参数即可。图2 选择开发环境在工程信息页面，填写工程名称和存放路径，设置JDK版本和Scala SDK，然后单击“Finish”完成工程创建。图3 填写工程信息

MapReduce服务 MRS
MapReduce服务 MRS-Java API:常用接口

常用接口 YARN常用的Java类有如下几个。 ApplicationClientProtocol 用于Client与ResourceManager之间。Client通过该协议可实现将应用程序提交到ResourceManager上，查询应用程序的运行状态或者中止应用程序等功能。表1 ApplicationClientProtocol常用方法方法说明 forceKillApplication(KillApplicationRequest request) Client通过此接口请求RM中止一个已提交的任务。 getApplicationAttemptReport(GetApplicationAttemptReportRequest request) Client通过此接口从RM获取指定ApplicationAttempt的报告信息。 getApplicationAttempts(GetApplicationAttemptsRequest request) Client通过此接口从RM获取所有ApplicationAttempt的报告信息。 getApplicationReport(GetApplicationReportRequest request) Client通过此接口从RM获取某个应用的报告信息。 getApplications(GetApplicationsRequest request) Client通过此接口从RM获取满足一定过滤条件的应用的报告信息。 getClusterMetrics(GetClusterMetricsRequest request) Client通过此接口从RM获取集群的Metrics。 getClusterNodes(GetClusterNodesRequest request) Client通过此接口从RM获取集群中的所有节点信息。 getContainerReport(GetContainerReportRequest request) Client通过此接口从RM获取某个Container的报告信息。 getContainers(GetContainersRequest request) Client通过此接口从RM获取某个ApplicationAttemp的所有Container的报告信息。 getDelegationToken(GetDelegationTokenRequest request) Client通过此接口获取授权票据，用于container访问相应的service。 getNewApplication(GetNewApplicationRequest request) Client通过此接口获取一个新的应用ID号，用于提交新的应用。 getQueueInfo(GetQueueInfoRequest request) Client通过此接口从RM中获取队列的相关信息。 getQueueUserAcls(GetQueueUserAclsInfoRequest request) Client通过此接口从RM中获取当前用户的队列访问权限信息。 moveApplicationAcrossQueues(MoveApplicationAcrossQueuesRequest request) 移动一个应用到新的队列。 submitApplication(SubmitApplicationRequest request) Client通过此接口提交一个新的应用到RM。 ApplicationMasterProtocol 用于ApplicationMaster与ResourceManager之间。ApplicationMaster使用该协议向ResourceManager注册、申请资源、获取各个任务的运行情况等。表2 ApplicationMasterProtocol常用方法方法说明 allocate(AllocateRequest request) AM通过此接口提交资源分配申请。 finishApplicationMaster(FinishApplicationMasterRequest request) AM通过此接口通知RM其运行成功或者失败。 registerApplicationMaster(RegisterApplicationMasterRequest request) AM通过此接口向RM进行注册。 ContainerManagementProtocol 用于ApplicationMaster与NodeManager之间。ApplicationMaster使用该协议要求NodeManager启动/中止Container或者查询Container的运行状态。表3 ContainerManagementProtocol常用方法方法说明 getContainerStatuses(GetContainerStatusesRequest request) AM通过此接口向NM请求Containers的当前状态信息。 startContainers(StartContainersRequest request) AM通过此接口向NM提供需要启动的containers列表的请求。 stopContainers(StopContainersRequest request) AM通过此接口请求NM停止一系列已分配的Containers。

MapReduce服务 MRS
MapReduce服务 MRS-应用开发简介:架构

架构 Flink架构如图2所示。图2 Flink架构 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 Exactly Once 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。

MapReduce服务 MRS
MapReduce服务 MRS-应用开发简介:简介

简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink技术栈如图1所示。图1 Flink技术栈 Flink在当前版本中重点构建如下特性，其他特性继承开源社区，不做增强。 DataStream Checkpoint 窗口 Job Pipeline 配置表

MapReduce服务 MRS
MapReduce服务 MRS-应用开发简介:Flink开发接口简介

Flink开发接口简介 Flink DataStream API提供Scala和Java两种语言的开发方式，如表1所示。表1 Flink DataStream API接口功能说明 Scala API 提供Scala语言的API，提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂，推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API，提供过滤、join、窗口、聚合等数据处理能力。

MapReduce服务 MRS
MapReduce服务 MRS-常用概念:基本概念

基本概念 DataStream 数据流，是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入，可以通过socket、Kafka和文件等形式导入，在Flink系统处理后，在通过Socket、Kafka和文件等输出到外部系统，这是Flink的核心概念。 Data Transformation 数据处理单元，会将一或多个DataStream转换成一个新的DataStream。具体可以细分如下几类：一对一的转换：如Map。一对0、1或多个的转换：如FlatMap。一对0或1的转换，如Filter。多对1转换，如Union。多个聚合的转换，如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时，应用的所有状态能够从某一个检查点恢复，保证数据仅被处理一次（Exactly Once）。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint，以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行，保证数据处理的延续性。

MapReduce服务 MRS
MapReduce服务 MRS-概述:基本概念

基本概念 ResourceManager（RM） RM是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成：调度器（Scheduler）和应用程序管理器（Applications Manager，ASM）。 ApplicationMaster（AM）用户提交的每个应用程序均包含一个AM，主要功能包括：与RM调度器协商以获取资源（用Container表示）。将得到的资源进一步分配给内部任务。与NM通信以启动/停止任务。监控所有任务的运行状态，并在任务运行失败时重新为任务申请资源以重启任务。 NodeManager（NM） NM是每个节点上的资源和任务管理器，一方面，它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；另一方面，它会接收并处理来自AM的Container启动/停止等各种请求。 Container Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。

MapReduce服务 MRS
MapReduce服务 MRS-概述:简介

简介 Yarn是一个分布式的资源管理系统，用于提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改，可是随着代码的增加以及原MapReduce框架设计的不足，在原MapReduce框架上进行修改变得越来越困难，所以MapReduce的committer决定从架构上重新设计MapReduce，使下一代的MapReduce(MRv2/Yarn)框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率，以及能支持除了MapReduce计算框架外的更多的计算框架。

MapReduce服务 MRS
MapReduce服务 MRS-Storm-HDFS开发指引:部署运行及结果查看

部署运行及结果查看导出本地jar包，请参见打包IntelliJ IDEA代码。将1导出的本地Jar包，5中获取的配置文件和6中获取的jar包合并统一打出完整的业务jar包，请参见打包业务。执行命令提交拓扑。 keytab方式下，若用户修改了keytab文件名，如修改为“huawei.keytab”，则需要在命令中增加第二个参数进行说明，提交命令示例（拓扑名为hdfs-test）： storm jar /opt/jartarget/source.jar com.huawei.storm.example.hdfs.SimpleHDFSTopology hdfs-test huawei.keytab 安全模式下在提交source.jar之前，请确保已经进行kerberos安全登录，并且keytab方式下，登录用户和所上传keytab所属用户必须是同一个用户。拓扑提交成功后请登录HDFS集群查看。如果使用票据登录，则需要使用命令行定期上传票据，具体周期由票据刷新截止时间而定，步骤如下：在安装好的storm客户端目录的“Storm/storm-1.2.1/conf/storm.yaml”文件尾部新起一行添加如下内容： topology.auto-credentials: - org.apache.storm.security.auth.kerberos.AutoTGT 执行命令：./storm upload-credentials hdfs-test

MapReduce服务 MRS
MapReduce服务 MRS-Storm-HBase开发指引:部署运行及结果查看

部署运行及结果查看导出本地jar包，请参见打包IntelliJ IDEA代码。将1中导出的本地Jar包，5中获取的配置文件和6中获取的jar包合并统一打出完整的业务jar包，请参见打包业务。执行命令提交拓扑。 keytab方式下，若用户修改了keytab文件名，如修改为“huawei.keytab”，则需要在命令中增加第二个参数进行说明，提交命令示例（拓扑名为hbase-test）： storm jar /opt/jartarget/source.jar com.huawei.storm.example.hbase.SimpleHBaseTopology hbase-test huawei.keytab 安全模式下在提交source.jar之前，请确保已经进行kerberos安全登录，并且keytab方式下，登录用户和所上传keytab所属用户必须是同一个用户。因为示例中的HBaseBolt并没有建表功能，在提交之前确保hbase中存在相应的表，若不存在需要手动建表，hbase shell建表语句如下create 'WordCount', 'cf'。安全模式下hbase需要用户有相应表甚至列族和列的访问权限，因此首先需要在hbase所在集群上使用hbase管理员用户登录，之后在hbase shell中使用grant命令给提交用户申请相应表的权限，如示例中的WordCount，成功之后再使用提交用户登录并提交拓扑。拓扑提交成功后请自行登录HBase集群查看。如果使用票据登录，则需要使用命令行定期上传票据，具体周期由票据刷新截止时间而定，步骤如下：在安装好的storm客户端目录的“Storm/storm-1.2.1/conf/storm.yaml”文件尾部新起一行添加如下内容： topology.auto-credentials: - org.apache.storm.security.auth.kerberos.AutoTGT 执行命令./storm upload-credentials hbase-test。

MapReduce服务 MRS
MapReduce服务 MRS-对外接口

对外接口 Storm-HDFS采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-hdfs。 Storm-HBase采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-hbase。 Storm-Kafka采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-kafka。 Storm-JDBC采用的接口同开源社区版本保持一致，详情参见：https://github.com/apache/storm/tree/v1.2.1/external/storm-jdbc。父主题：更多信息

MapReduce服务 MRS
MapReduce服务 MRS-IntelliJ IDEA中远程提交拓扑:操作步骤

操作步骤修改WordCountTopology.java类，使用remoteSubmit方式提交应用程序。并替换用户keytab文件名称，用户principal名称，和Jar文件地址。使用remoteSubmit方式提交应用程序 public static void main(String[] args) throws Exception { TopologyBuilder builder = buildTopology(); /* * 任务的提交认为三种方式 * 1、命令行方式提交，这种需要将应用程序jar包复制到客户端机器上执行客户端命令提交 * 2、远程方式提交，这种需要将应用程序的jar包打包好之后在IntelliJ IDEA中运行main方法提交 * 3、本地提交，在本地执行应用程序，一般用来测试 * 命令行方式和远程方式安全和普通模式都支持 * 本地提交仅支持普通模式 * * 用户同时只能选择一种任务提交方式，默认命令行方式提交，如果是其他方式，请删除代码注释即可 */ submitTopology(builder, SubmitType.REMOTE); } 根据实际情况修改userJarFilePath为实际的拓扑Jar包地址 private static void remoteSubmit(TopologyBuilder builder) throws AlreadyAliveException, InvalidTopologyException, NotALeaderException, AuthorizationException, IOException { Config config = createConf(); String userJarFilePath = "D:\\example.jar"; System.setProperty(STORM_SUBMIT_JAR_PROPERTY, userJarFilePath); //安全模式下的一些准备工作 if (isSecurityModel()) { securityPrepare(config); } config.setNumWorkers(1); StormSubmitter.submitTopologyWithProgressBar(TOPOLOGY_NAME, config, builder.createTopology()); } 安全模式下需要执行安全准备，根据实际情况修改userKeyTablePath和userPrincipal为配置并导入样例工程章节的步骤2中所获取用户的keytab文件路径和principal private static void securityPrepare(Config config) throws IOException { String userKeyTablePath = System.getProperty("user.dir") + File.separator + "src" + File.separator + "main" + File.separator + "resources" + File.separator + "user.keytab"; String userPrincipal = "StreamingDeveloper"; String krbFilePath = System.getProperty("user.dir") + File.separator + "src" + File.separator + "main" + File.separator + "resources" + File.separator +"krb5.conf"; //windows路径下分隔符替换 userKeyTablePath = userKeyTablePath.replace("\\", "\\\\"); krbFilePath = krbFilePath.replace("\\", "\\\\"); String principalInstance = String.valueOf(config.get(Config.STORM_SECURITY_PRINCIPAL_INSTANCE)); LoginUtil.setKrb5Config(krbFilePath); LoginUtil.setZookeeperServerPrincipal("zookeeper/" + principalInstance); LoginUtil.setJaasFile(userPrincipal, userKeyTablePath); } 执行WordCountTopology.java类的Main方法提交应用程序。

MapReduce服务 MRS
MapReduce服务 MRS-创建Topology:代码样例

代码样例下面代码片段在com.huawei.storm.example.wordcount包的“WordCountTopology”类的“main”方法中，作用在于构建应用程序并提交。 public static void main(String[] args) throws Exception { TopologyBuilder builder = buildTopology(); /* * 任务的提交认为三种方式 * 1、命令行方式提交，这种需要将应用程序jar包复制到客户端机器上执行客户端命令提交 * 2、远程方式提交，这种需要将应用程序的jar包打包好之后在IntelliJ IDEA中运行main方法提交 * 3、本地提交，在本地执行应用程序，一般用来测试 * 命令行方式和远程方式安全和普通模式都支持 * 本地提交仅支持普通模式 * * 用户同时只能选择一种任务提交方式，默认命令行方式提交，如果是其他方式，请删除代码注释即可 */ submitTopology(builder, SubmitType.CMD); } private static void submitTopology(TopologyBuilder builder, SubmitType type) throws Exception { switch (type) { case CMD: { cmdSubmit(builder, null); break; } case REMOTE: { remoteSubmit(builder); break; } case LOCAL: { localSubmit(builder); break; } } } /** * 命令行方式远程提交 * 步骤如下： * 打包成Jar包，然后在客户端命令行上面进行提交 * 远程提交的时候，要先将该应用程序和其他外部依赖(非excemple工程提供，用户自己程序依赖)的jar包打包成一个大的jar包 * 再通过storm客户端中storm -jar的命令进行提交 * * 如果是安全环境，客户端命令行提交之前，必须先通过kinit命令进行安全登录 * * 运行命令如下： * ./storm jar ../example/example.jar com.huawei.storm.example.WordCountTopology */ private static void cmdSubmit(TopologyBuilder builder, Config conf) throws AlreadyAliveException, InvalidTopologyException, NotALeaderException, AuthorizationException { if (conf == null) { conf = new Config(); } conf.setNumWorkers(1); StormSubmitter.submitTopologyWithProgressBar(TOPOLOGY_NAME, conf, builder.createTopology()); } private static void localSubmit(TopologyBuilder builder) throws InterruptedException { Config conf = new Config(); conf.setDebug(true); conf.setMaxTaskParallelism(3); LocalCluster cluster = new LocalCluster(); cluster.submitTopology(TOPOLOGY_NAME, conf, builder.createTopology()); Thread.sleep(10000); cluster.shutdown(); } private static void remoteSubmit(TopologyBuilder builder) throws AlreadyAliveException, InvalidTopologyException, NotALeaderException, AuthorizationException, IOException { Config config = createConf(); String userJarFilePath = "替换为用户jar包地址"; System.setProperty(STORM_SUBMIT_JAR_PROPERTY, userJarFilePath); //安全模式下的一些准备工作 if (isSecurityModel()) { securityPrepare(config); } config.setNumWorkers(1); StormSubmitter.submitTopologyWithProgressBar(TOPOLOGY_NAME, config, builder.createTopology()); } private static TopologyBuilder buildTopology() { TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("spout", new RandomSentenceSpout(), 5); builder.setBolt("split", new SplitSentenceBolt(), 8).shuffleGrouping("spout"); builder.setBolt("count", new WordCountBolt(), 12).fieldsGrouping("split", new Fields("word")); return builder; } 如果拓扑开启了ack，推荐acker的数量不大于所设置的worker数量。

MapReduce服务 MRS
MapReduce服务 MRS-Linux下打包过程:操作步骤

操作步骤将从IntelliJ IDEA中导出的jar包复制到Linux客户端指定目录（例如“/opt/jarsource”）。若业务需要访问外部组件，其所依赖的配置文件请参考相关开发指引，获取到配置文件后将配置文件放在1中指定的目录下。若业务需要访问外部组件，其所依赖的jar包请参考相关开发指引，获取到jar包后将jar包放在1中指定的目录下。在Storm客户端安装目录“Storm/storm-1.2.1/bin”下执行打包命令，将上述jar包打成一个完整的业务jar包放入指定目录/opt/jartarget（可为任意空目录）。执行sh storm-jartool.sh /opt/jarsource/ /opt/jartarget命令后，会在“/opt/jartarget”下生成source.jar。

MapReduce服务 MRS
MapReduce服务 MRS-Windows下打包过程:操作步骤

操作步骤将从IntelliJ IDEA打包出来的jar包放入指定文件夹（例如“D:\source”）。在样例代码目录“src/storm-examples/storm-examples”下创建“lib”目录，将IntelliJ IDEA中导出的jar包复制到“lib”目录下，并解压。若业务需要访问外部组件，其所依赖的配置文件请参考相关开发指引，获取到配置文件后将配置文件放在1中指定的目录下。若业务需要访问外部组件，其所依赖的jar包请参考相关开发指引，获取到jar包后将jar包放在1中指定的目录下。在IntelliJ IDEA样例工程的“tools”目录下找到打包工具：“storm-jartool.cmd”。双击打包工具，输入要打包的jar包所在目录（“D:\source”）并回车，再输入打出包存放的目录（“D:\target”），在“D:\target”中，会生成“source.jar”文件。

MapReduce服务 MRS
MapReduce服务 MRS-创建Spout:代码样例

代码样例下面代码片段在com.huawei.storm.example.common包的RandomSentenceSpout类的nextTuple方法中，作用在于将收到的字符串拆分成单词。 /** * {@inheritDoc} */ @Override public void nextTuple() { Utils.sleep(100); String[] sentences = new String[] {"the cow jumped over the moon", "an apple a day keeps the doctor away", "four score and seven years ago", "snow white and the seven dwarfs", "i am at two with nature"}; String sentence = sentences[random.nextInt(sentences.length)]; collector.emit(new Values(sentence)); }

MapReduce服务 MRS
MapReduce服务 MRS-Linux中安装客户端时提交拓扑:操作步骤

操作步骤安全模式下，请先进行安全认证。初始化客户端环境变量。进入客户端安装目录“/opt/Storm_client”执行以下命令，导入环境变量信息。 source bigdata_env 使用在“准备开发用户”章节创建的开发用户进行安全登录。执行kinit命令进行“人机”用户的安全登录。 kinit用户名例如： kinit developuser 然后按照提示输入密码，无异常提示返回，则完成了用户的kerberos认证。提交拓扑（以wordcount为例，其它拓扑请参照相关开发指引），进入Storm客户端“Storm/storm-1.2.1/bin”目录，将刚打出的source.jar提交（如果在Windows上进行的打包，则需要将Windows上的source.jar上传到Linux服务器，假定上传到“/opt/jartarget”目录），执行命令：storm jar /opt/jartarget/source.jar com.huawei.storm.example.wordcount.WordCountTopology。执行storm list命令，查看已经提交的应用程序，如果发现名称为word-count的应用程序，则说明任务提交成功。如果业务设置为本地模式，且使用命令行方式提交时，请确保提交环境为普通模式环境，当前不支持安全环境下使用命令提交本地模式的业务。

MapReduce服务 MRS
MapReduce服务 MRS-创建Bolt:代码样例

代码样例下面代码片段在com.huawei.storm.example.common包的“SplitSentenceBolt”类的“execute”方法中，作用在于拆分每条语句为单个单词并发送。 /** * {@inheritDoc} */ @Override public void execute(Tuple input, BasicOutputCollector collector) { String sentence = input.getString(0); String[] words = sentence.split(" "); for (String word : words) { word = word.trim(); if (!word.isEmpty()) { word = word.toLowerCase(); collector.emit(new Values(word)); } } } 下面代码片段在com.huawei.storm.example.wordcount包的“WordCountBolt”类的execute方法中，作用在于统计收到的每个单词的数量。 @Override public void execute(Tuple tuple, BasicOutputCollector collector) { String word = tuple.getString(0); Integer count = counts.get(word); if (count == null) { count = 0; } count++; counts.put(word, count); System.out.println("word: " + word + ", count: " + count); }

MapReduce服务 MRS
MapReduce服务 MRS-Spark2x样例工程介绍

Spark2x样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下Spark2x相关样例工程：表1 Spark2x相关样例工程样例工程位置描述 sparksecurity-examples/SparkHbasetoCarbonJavaExample Spark同步HBase数据到CarbonData的Java示例程序。本示例工程中，应用将数据实时写入HBase，用于点查业务。数据每隔一段时间批量同步到CarbonData表中，用于分析型查询业务。 sparksecurity-examples/SparkHbasetoHbaseJavaExample Spark从HBase读取数据再写入HBase的Java/Scala/Python示例程序。本示例工程中，Spark应用程序实现两个HBase表数据的分析汇总。 sparksecurity-examples/SparkHbasetoHbasePythonExample sparksecurity-examples/SparkHbasetoHbaseScalaExample sparksecurity-examples/SparkHivetoHbaseJavaExample Spark从Hive读取数据再写入到HBase的Java/Scala/Python示例程序。本示例工程中，Spark应用程序实现分析处理Hive表中的数据，并将结果写入HBase表。 sparksecurity-examples/SparkHivetoHbasePythonExample sparksecurity-examples/SparkHivetoHbaseScalaExample sparksecurity-examples/SparkJavaExample Spark Core任务的Java/Python/Scala/R示例程序。本工程应用程序实现从HDFS上读取文本数据并计算分析。 SparkRExample示例不支持未开启Kerberos认证的集群。 sparksecurity-examples/SparkPythonExample sparksecurity-examples/SparkRExample sparksecurity-examples/SparkScalaExample sparksecurity-examples/SparkLauncherJavaExample 使用Spark Launcher提交作业的Java/Scala示例程序。本工程应用程序通过org.apache.spark.launcher.SparkLauncher类采用Java/Scala命令方式提交Spark应用。 sparksecurity-examples/SparkLauncherScalaExample sparksecurity-examples/SparkOnClickHouseJavaExample Spark通过ClickHouse JDBC的原生接口，以及Spark JDBC驱动，实现对ClickHouse数据库和表的创建、查询、插入等操作样例代码。 sparksecurity-examples/SparkOnClickHousePythonExample sparksecurity-examples/SparkOnClickHouseScalaExample sparksecurity-examples/SparkOnHbaseJavaExample Spark on HBase场景的Java/Scala/Python示例程序。本工程应用程序以数据源的方式去使用HBase，将数据以Avro格式存储在HBase中，并从中读取数据以及对读取的数据进行过滤等操作。 sparksecurity-examples/SparkOnHbasePythonExample sparksecurity-examples/SparkOnHbaseScalaExample sparksecurity-examples/SparkOnHudiJavaExample Spark on Hudi场景的Java/Scala/Python示例程序。本工程应用程序使用Spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。 sparksecurity-examples/SparkOnHudiPythonExample sparksecurity-examples/SparkOnHudiScalaExample sparksecurity-examples/SparkOnMultiHbaseScalaExample Spark同时访问两个集群中的HBase的Scala示例程序。 sparksecurity-examples/SparkSQLJavaExample Spark SQL任务的Java/Python/Scala示例程序。本工程应用程序实现从HDFS上读取文本数据并计算分析。 sparksecurity-examples/SparkSQLPythonExample sparksecurity-examples/SparkSQLScalaExample sparksecurity-examples/SparkStreamingKafka010JavaExample Spark Streaming从Kafka接收数据并进行统计分析的Java/Scala示例程序。本工程应用程序实时累加计算Kafka中的流数据，统计每个单词的记录总数。 sparksecurity-examples/SparkStreamingKafka010PythonExample sparksecurity-examples/SparkStreamingtoHbaseJavaExample010 Spark Streaming读取Kafka数据并写入HBase的Java/Scala/Python示例程序。本工程应用程序每5秒启动一次任务，读取Kafka中的数据并更新到指定的HBase表中。 sparksecurity-examples/SparkStreamingtoHbasePythonExample010 sparksecurity-examples/SparkStreamingtoHbaseScalaExample010 sparksecurity-examples/SparkStructuredStreamingJavaExample 在Spark应用中，通过使用StructuredStreaming调用Kafka接口来获取单词记录，然后把单词记录分类统计，得到每个单词记录数。 sparksecurity-examples/SparkStructuredStreamingPythonExample sparksecurity-examples/SparkStructuredStreamingScalaExample sparksecurity-examples/SparkThriftServerJavaExample 通过JDBC访问Spark SQL的Java/Scala示例程序。本示例中，用户自定义JDBCServer的客户端，使用JDBC连接来进行表的创建、数据加载、查询和删除。 sparksecurity-examples/SparkThriftServerScalaExample sparksecurity-examples/StructuredStreamingADScalaExample 使用Structured Streaming，从kafka中读取广告请求数据、广告展示数据、广告点击数据，实时获取广告有效展示统计数据和广告有效点击统计数据，将统计结果写入kafka中。 sparksecurity-examples/StructuredStreamingStateScalaExample 在Spark结构流应用中，跨批次统计每个session期间发生了多少次event以及本session的开始和结束timestamp；同时输出本批次被更新状态的session。父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-开发思路:功能分解

功能分解根据上述场景进行功能分解，如表1所示：表1 在应用中开发的功能序号步骤代码示例 1 创建一个Spout用来生成随机文本请参见创建Spout 2 创建一个Bolt用来将收到的随机文本拆分成一个个单词请参见创建Bolt 3 创建一个Blot用来统计收到的各单词次数请参见创建Bolt 4 创建topology 请参见创建Topology 部分代码请参考代码样例说明，完整代码请参考Strom-examples示例工程。

MapReduce服务 MRS
MapReduce服务 MRS-开发流程

开发流程本文档主要基于Java API进行Storm拓扑的开发。开发流程中各阶段的说明如图1和表1所示：图1 拓扑开发流程表1 Storm应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解Storm的基本概念，了解场景需求，拓扑等。常用概念准备开发和运行环境 Storm的应用程序当前推荐使用Java语言进行开发。可使用IntelliJ IDEA工具。 Storm的运行环境即Storm客户端，请根据指导完成客户端的安装和配置。准备开发和运行环境准备工程 Storm提供了不同场景下的样例程序，您可以导入样例工程进行程序学习。配置并导入样例工程根据场景开发拓扑提供了Storm拓扑的构造和Spout/Bolt开发过程。开发程序打包IntelliJ IDEA代码 Storm样例程序是在Linux环境下运行，需要将IntelliJ IDEA中的代码打包成jar包。打包IntelliJ IDEA代码打包业务将IntelliJ IDEA代码生成的jar包与工程依赖的jar包，合并导出可提交的source.jar。打包业务提交拓扑指导用户将开发好的程序提交运行。提交拓扑查看程序运行结果指导用户提交拓扑后查看程序运行结果。查看结果父主题：概述

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线