华为云用户手册

MapReduce服务 MRS-规则:Hive JDBC驱动的加载

Hive JDBC驱动的加载客户端程序以JDBC的形式连接Impalad时，需要首先加载Hive的JDBC驱动类org.apache.hive.jdbc.HiveDriver。所以在客户端程序开始前，必须先使用当前类加载器加载该驱动类。如果classpath下没有相应的jar包，则客户端程序抛出Class Not Found异常并退出。如下： Class.forName("org.apache.hive.jdbc.HiveDriver").newInstance();

MapReduce服务 MRS
MapReduce服务 MRS-规则:多线程安全登录方式

多线程安全登录方式如果有多线程进行login的操作，当应用程序第一次登录成功后，所有线程再次登录时应该使用relogin的方式。 login的代码样例： private Boolean login(Configuration conf){ boolean flag = false; UserGroupInformation.setConfiguration(conf); try { UserGroupInformation.loginUserFromKeytab(conf.get(PRINCIPAL), conf.get(KEYTAB)); System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased()); flag = true; } catch (IOException e) { e.printStackTrace(); } return flag; } relogin的代码样例： public Boolean relogin(){ boolean flag = false; try { UserGroupInformation.getLoginUser().reloginFromKeytab(); System.out.println("UserGroupInformation.isLoginKeytabBased(): " +UserGroupInformation.isLoginKeytabBased()); flag = true; } catch (IOException e) { e.printStackTrace(); } return flag; }

MapReduce服务 MRS
MapReduce服务 MRS-规则:获取数据库连接

获取数据库连接使用JDK的驱动管理类java.sql.DriverManager来获取一个Impalad的数据库连接。 Impalad的数据库URL为url="jdbc:hive2://xxx.xxx.xxx.xxx:21050;auth=KERBEROS;principal=impala/hadoop.hadoop.com@HADOOP.COM;user.principal=impala/hadoop.hadoop.com;user.keytab=conf/impala.keytab"; 以上已经经过安全认证，所以用户名和密码为null或者空。 // 建立连接 connection = DriverManager.getConnection(url, "", "");

MapReduce服务 MRS
MapReduce服务 MRS-规则:执行Impala SQL

执行Impala SQL 执行Impala SQL，注意Impala SQL不能以";"结尾。正确示例： String sql = "SELECT COUNT(*) FROM employees_info";Connection connection = DriverManager.getConnection(url, "", "");PreparedStatement statement = connection.prepareStatement(sql);resultSet = statement.executeQuery(); 错误示例： String sql = "SELECT COUNT(*) FROM employees_info;";Connection connection = DriverManager.getConnection(url, "", "");PreparedStatement statement = connection.prepareStatement(sql);resultSet = statement.executeQuery();

MapReduce服务 MRS
MapReduce服务 MRS-典型场景说明:开发思路

开发思路数据准备。创建三张表，雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。雇员信息表“employees_info”的字段为雇员编号、姓名、支付薪水币种、薪水金额、缴税税种、工作地、入职时间，其中支付薪水币种“R”代表人民币，“D”代表美元。雇员联络信息表“employees_contact”的字段为雇员编号、电话号码、e-mail。雇员信息扩展表“employees_info_extended”的字段为雇员编号、姓名、电话号码、e-mail、支付薪水币种、薪水金额、缴税税种、工作地，分区字段为入职时间。创建表代码实现请见创建表。加载雇员信息数据到雇员信息表“employees_info”中。加载数据代码实现请见数据加载。雇员信息数据如表1所示。表1 雇员信息数据编号姓名支付薪水币种薪水金额缴税税种工作地入职时间 1 Wang R 8000.01 personal income tax&0.05 China:Shenzhen 2014 3 Tom D 12000.02 personal income tax&0.09 America:NewYork 2014 4 Jack D 24000.03 personal income tax&0.09 America:Manhattan 2014 6 Linda D 36000.04 personal income tax&0.09 America:NewYork 2014 8 Zhang R 9000.05 personal income tax&0.05 China:Shanghai 2014 加载雇员联络信息数据到雇员联络信息表“employees_contact”中。雇员联络信息数据如表2所示。表2 雇员联络信息数据编号电话号码 e-mail 1 135 XXXX XXXX xxxx@xx.com 3 159 XXXX XXXX xxxxx@xx.com.cn 4 186 XXXX XXXX xxxx@xx.org 6 189 XXXX XXXX xxxx@xxx.cn 8 134 XXXX XXXX xxxx@xxxx.cn 数据分析。数据分析代码实现，请见数据查询。查看薪水支付币种为美元的雇员联系方式。查询入职时间为2014年的雇员编号、姓名等字段，并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中。统计表employees_info中有多少条记录。查询使用以“cn”结尾的邮箱的员工信息。提交数据分析任务，统计表employees_info中有多少条记录。实现请见样例程序指导。

MapReduce服务 MRS
MapReduce服务 MRS-建议:Impala SQL编写之不支持隐式类型转换

Impala SQL编写之不支持隐式类型转换查询语句使用字段的值做过滤时，不支持使用Hive类似的隐式类型转换来编写Impala SQL： Impala示例： select * from default.tbl_src where id = 10001;select * from default.tbl_src where name = 'TestName'; Hive示例(支持隐式类型转换)： select * from default.tbl_src where id = '10001';select * from default.tbl_src where name = TestName; 表tbl_src的id字段为Int类型，name字段为String类型。

MapReduce服务 MRS
MapReduce服务 MRS-常用概念

常用概念 Topic Kafka维护的同一类的消息称为一个Topic。 Partition 每一个Topic可以被分为多个Partition，每个Partition对应一个可持续追加的、有序不可变的log文件。 Producer 将消息发往Kafka topic中的角色称为Producer。 Consumer 从Kafka topic中获取消息的角色称为Consumer。 Broker Kafka集群中的每一个节点服务器称为Broker。父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-在Windows中调测程序

在Windows中调测程序运行样例。导入和修改样例后，即可在开发环境中，右击“ExampleMain.java”，选择“ExampleMain.main()”运行对应的应用程序工程。使用Windows访问MRS集群来操作Impala，有如下两种方式。方法一：申请一台Windows的ECS访问MRS集群操作Impala，在安装开发环境后可直接运行样例代码。在“现有集群”列表中，单击已创建的集群名称。记录集群的“可用分区”、“虚拟私有云”，以及Master节点的“默认安全组”。在弹性云服务管理控制台，创建一个新的弹性云服务器。弹性云服务器的“可用分区”、“虚拟私有云”、“安全组”，需要和待访问集群的配置相同。选择一个Windows系统的公共镜像。其他配置参数详细信息，请参见自定义购买弹性云服务器。方法二：使用本机访问MRS集群操作Impala，在安装开发环境后并完成以下步骤后再运行样例代码。为任意一个Core节点绑定弹性公网IP，完成后将该IP地址配置在开发样例的client.properties下的impala-server配置项中，用于访问Impala服务、提交SQL语句。在弹性云服务器页面申请并绑定弹性云服务器IP，具体请参考为弹性云服务器申请和绑定弹性公网IP。为MRS集群开放安全组规则。在集群Master节点和Core节点的安全组添加安全组规则使弹性云服务器可以访问集群，具体请参考配置安全组规则。样例中的client.properties配置如下： impala-server = XX.XX.XX.XX:21050 ##指定要连接的impalad实例所在Core节点绑定的服务地址，方式二需要填写步骤1中绑定的弹性公网IP 查看结果。查看样例代码中的Impala SQL所查询出的结果，运行成功结果会有如下信息。 ExampleMain运行及结果查看。 Create table success!_c00Delete table success! 运行样例出错，出现如下提示： Error running 'ExampleMain': Command line is too long. Shorten command line for ServiceStarter or also for Application default configuration. 解决办法：在Intellij中的配置Edit Configurations 中设置shorten command line 即可。父主题：调测程序

MapReduce服务 MRS
MapReduce服务 MRS-Flink Client CLI介绍:注意事项

注意事项如果yarn-session.sh使用-z配置特定的zookeeper的namespace，则在使用flink run时必须使用-yid指出applicationID，使用-yz指出zookeeper的namespace，前后namespace保持一致。举例： bin/yarn-session.sh -z YARN101 bin/flink run -yid application_****_**** -yz YARN101 examples/streaming/WindowJoin.jar

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:数据规划

数据规划发布者Job使用自定义算子每秒钟产生10000条数据。数据包含两个属性：分别是Int和String类型。配置文件 nettyconnector.registerserver.topic.storage：设置NettySink的IP、端口及并发度信息在第三方注册服务器上的路径（必填），例如： nettyconnector.registerserver.topic.storage: /flink/nettyconnector nettyconnector.sinkserver.port.range：设置NettySink的端口范围（必填），例如： nettyconnector.sinkserver.port.range: 28444-28943 nettyconnector.ssl.enabled：设置NettySink与NettySource之间通信是否SSL加密（默认为false），例如： nettyconnector.ssl.enabled: true nettyconnector.sinkserver.subnet：设置网络所属域，例如： nettyconnector.sinkserver.subnet: 10.162.0.0/16 安全认证配置： Zookeeper的SASL认证，依赖“flink-conf.yaml”中有关HA的相关配置，具体配置请参见配置管理Flink。 SSL的keystore、truststore、keystore password、truststore password以及password等也使用“flink-conf.yaml”的相关配置，具体配置请参见加密传输。接口说明注册服务器接口注册服务器用来保存NettySink的IP、端口以及并发度信息，以便NettySource连接使用。为用户提供以下接口： public interface RegisterServerHandler { /** * 启动注册服务器 * @param configuration Flink的Configuration类型 */void start(Configuration configuration) throws Exception;/** *注册服务器上创建Topic节点（目录） * @param topic topic节点名称 */void createTopicNode(String topic) throw Exception;/***将信息注册到某个topic节点（目录）下* @param topic 需要注册到的目录* @param registerRecord 需要注册的信息*/void register(String topic, RegisterRecord registerRecord) throws Exception;/** *删除topic节点 * @param topic 待删除topic */ void deleteTopicNode(String topic) throws Exception;/** *注销注册信息 *@param topic 注册信息所在的topic *@param recordId 待注销注册信息ID */void unregister(String topic, int recordId) throws Exception;/** * 查寻信息* @param 查询信息所在的topic*@recordId 查询信息的ID*/RegisterRecord query(String topic, int recordId) throws Exception;/** * 查询某个Topic是否存在 * @param topic */Boolean isExist(String topic) throws Exception;/** *关闭注册服务器句柄 */void shutdown() throws Exception; 工程基于以上接口提供了ZookeeperRegisterHandler供用户使用。 NettySink算子 Class NettySink(String name, String topic, RegisterServerHandler registerServerHandler,int numberOfSubscribedJobs) name：为本NettySink的名称。 topic：为本NettySink产生数据的Topic，每个不同的NettySink（并发度除外）必须使用不同的TOPIC，否则会引起订阅混乱，数据无法正常分发。 registerServerHandler：为注册服务器的句柄。 numberOfSubscribedJobs：为订阅本NettySink的作业数量，该数量必须是明确的，只有当所有订阅者都连接上NettySink，NettySink才发送数据。 NettySource算子 Class NettySource(String name,String topic,RegisterServerHandler registerServerHandler) name：为本NettySource的名称，该NettySource必须是唯一的（并发度除外），否则，连接NettySink时会出现冲突，导致无法连接。 topic：订阅的NettySink的topic。 registerServerHandler：为注册服务器的句柄。 NettySource的并发度必须与NettySink的并发度相同，否则无法正常创建连接。

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:场景说明

场景说明假定用户有某个网站周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Flink的DataStream应用程序实现如下功能： DataStream应用程序可以在Windows环境和Linux环境中运行。实时统计总计网购时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志。该日志文件在该样例程序中的data目录下获取。 LiuYang,female,20YuanJing,male,10GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20FangBo,female,50LiuYang,female,20YuanJing,male,10GuoYijun,male,50CaiXuyu,female,50FangBo,female,60 log2.txt：周日网民停留日志。该日志文件在该样例程序中的data目录下获取。 LiuYang,female,20YuanJing,male,10CaiXuyu,female,50FangBo,female,50GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20CaiXuyu,female,50FangBo,female,50LiuYang,female,20YuanJing,male,10FangBo,female,50GuoYijun,male,50CaiXuyu,female,50FangBo,female,60

MapReduce服务 MRS
MapReduce服务 MRS-场景说明:数据规划

数据规划 DataStream样例工程的数据存储在文本中。将log1.txt和log2.txt放置在指定路径下，例如"/opt/log1.txt"和"/opt/log2.txt"。数据文件若存放在本地文件系统，需在所有部署Yarn NodeManager的节点指定目录放置，并设置运行用户访问权限。若将数据文件放置于HDFS，需指定程序中读取文件路径HDFS路径，例如"hdfs://hacluster/path/to/file"。

MapReduce服务 MRS
MapReduce服务 MRS-准备开发环境:准备开发环境

准备开发环境在进行应用开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows 7以上版本。运行环境：Linux系统如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。安装和配置IDEA 用于开发Flink应用程序的工具。版本要求：2019.1或其他兼容版本。安装Scala Scala开发环境的基本配置。版本要求：2.11.7。安装Scala插件 Scala开发环境的基本配置。版本要求：1.5.4。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。

MapReduce服务 MRS
MapReduce服务 MRS-新建工程（可选）:操作步骤

操作步骤打开IDEA工具，选择“Create New Project”。图1 创建工程在“New Project”页面，选择“Scala”开发环境，并选择“Scala Module”，然后单击“Next”。如果您需要新建Java语言的工程，选择对应参数即可。图2 选择开发环境在工程信息页面，填写工程名称和存放路径，设置JDK版本和Scala SDK，然后单击“Finish”完成工程创建。图3 填写工程信息

MapReduce服务 MRS
MapReduce服务 MRS-开发流程:Flink应用程序开发流程

Flink应用程序开发流程 Flink开发流程参考如下步骤：图1 Flink应用程序开发流程表1 Flink应用开发的流程说明阶段说明参考章节了解基本概念在开始开发应用前，需要了解Flink的基本概念。常用概念准备开发和运行环境 Flink的应用程序支持使用Scala、Java两种语言进行开发。推荐使用IDEA工具，请根据指导完成不同语言的开发环境配置。Flink的运行环境即Flink客户端，请根据指导完成客户端的安装和配置。准备开发环境准备连接集群配置文件准备工程 Flink提供了样例程序，您可以导入样例工程进行程序学习。或者您可以根据指导，新建一个Flink工程。配置并导入样例工程新建工程（可选）准备安全认证如果您使用的是安全集群，需要进行安全认证。准备安全认证根据场景开发工程提供了Scala、Java两种不同语言的样例工程，帮助用户快速了解Flink各部件的编程接口。开发程序编译并运行程序指导用户将开发好的程序编译并提交运行。编包并运行程序查看程序运行结果程序运行结果会写在用户指定的路径下，用户还可以通过UI查看应用运行情况。查看调测结果调优程序您可以根据程序运行情况，对程序进行调优，使其性能满足业务场景需求。调优完成后，请重新进行编译和运行。组件操作指南中的“Flink性能调优”

MapReduce服务 MRS
MapReduce服务 MRS-常用概念:基本概念

基本概念 DataStream 数据流，是指Flink系统处理的最小数据单元。该数据单元最初由外部系统导入，可以通过Socket、Kafka和文件等形式导入，在Flink系统处理后，在通过Socket、Kafka和文件等输出到外部系统，这是Flink的核心概念。 Data Transformation 数据处理单元，会将一或多个DataStream转换成一个新的DataStream。具体可以细分如下几类：一对一的转换：如Map。一对0、1或多个的转换：如FlatMap。一对0或1的转换，如Filter。多对1转换，如Union。多个聚合的转换，如window、keyby。 CheckPoint CheckPoint是Flink数据处理高可靠、最重要的机制。该机制可以保证应用在运行过程中出现失败时，应用的所有状态能够从某一个检查点恢复，保证数据仅被处理一次（Exactly Once）。 SavePoint Savepoint是指允许用户在持久化存储中保存某个checkpoint，以便用户可以暂停自己的任务进行升级。升级完后将任务状态设置为savepoint存储的状态开始恢复运行，保证数据处理的延续性。

MapReduce服务 MRS
MapReduce服务 MRS-应用开发简介:简介

简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink技术栈如图1所示。图1 Flink技术栈 Flink在当前版本中重点构建如下特性，其他特性继承开源社区，不做增强，具体请参考：https://ci.apache.org/projects/flink/flink-docs-release-1.15。 DataStream Checkpoint 窗口 Job Pipeline 配置表

MapReduce服务 MRS
MapReduce服务 MRS-应用开发简介:结构

结构 Flink结构如图2所示。图2 Flink结构 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 Exactly Once 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。

MapReduce服务 MRS
MapReduce服务 MRS-常用概念

常用概念客户端客户端直接面向用户，可通过Java API、Thrift API访问服务端进行Hive的相关操作。 HQL语言 Hive Query Language，类SQL语句。 HCatalog HCatalog是建立在Hive元数据之上的一个表信息管理层，吸收了Hive的DDL命令。为MapReduce提供读写接口，提供Hive命令行接口来进行数据定义和元数据查询。基于MRS的HCatalog功能，Hive、MapReduce开发人员能够共享元数据信息，避免中间转换和调整，能够提升数据处理的效率。 WebHCat WebHCat运行用户通过Rest API来执行Hive DDL，提交MapReduce任务，查询MapReduce任务执行结果等操作。父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-创建库

创建库以下代码片段在com.huawei.clickhouse.examples包的“Demo”类的createDatabase方法中。通过on cluster语句在集群中创建表1中以databaseName参数值为数据库名的数据库。 private void createDatabase(String databaseName, String clusterName) throws Exception { String createDbSql = "create database if not exists " + databaseName + " on cluster " + clusterName; util.exeSql(createDbSql);} 父主题：样例代码说明

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse样例工程介绍

ClickHouse样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地解压，即可获取各组件对应的样例代码工程。当前MRS提供以下ClickHouse相关样例工程：表1 ClickHouse相关样例工程样例工程位置描述 clickhouse-examples 指导用户基于Java语言，实现MRS集群中的ClickHouse的数据表创建、删除以及数据的插入、查询等操作。本工程中包含了建立服务端连接、创建数据库、创建数据表、插入数据、查询数据及删除数据表等操作示例。父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-建立连接

建立连接创建连接时传入表1中配置的user和password作为认证凭据，ClickHouse会带着用户名和密码在服务端进行安全认证。 ClickHouseDataSource clickHouseDataSource =new ClickHouseDataSource(JDBC_PREFIX + serverList.get(tries - 1), clickHouseProperties);connection = clickHouseDataSource.getConnection(user, password); 父主题：样例代码说明

MapReduce服务 MRS
MapReduce服务 MRS-开发思路:开发思路

开发思路 ClickHouse作为一款独立的DBMS系统，使用SQL语言就可以进行常见的操作。开发程序示例中，全部通过clickhouse-jdbc API接口来进行描述，开发流程主要分为以下几部分：设置属性：设置连接ClickHouse服务实例的参数属性。建立连接：建立和ClickHouse服务实例的连接。创建库：创建ClickHouse数据库。创建表：创建ClickHouse数据库下的表。插入数据：插入数据到ClickHouse表中。查询数据：查询ClickHouse表数据。删除表：删除已创建的ClickHouse表。

MapReduce服务 MRS
MapReduce服务 MRS-开发流程

开发流程开发流程中各阶段的说明如ClickHouse应用程序开发流程和表1所示。图1 ClickHouse应用程序开发流程表1 ClickHouse应用开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，ClickHouse的应用程序支持多种语言开发，推荐使用Java语言，使用IntelliJ IDEA工具，同时完成JDK、Maven等初始配置。准备开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括集群信息文件以及用于安全认证的用户文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts域名信息。准备连接集群配置文件配置并导入样例工程 ClickHouse提供了不同场景下的样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。配置并导入样例工程根据业务场景开发程序提供样例工程，帮助用户快速了解ClickHouse各部件的编程接口。开发程序编译并运行程序将开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。在Windows下调测程序在Linux下调测程序父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-设置属性

设置属性设置连接属性，如下样例代码设置socket超时时间为60s。 ClickHouseProperties clickHouseProperties = new ClickHouseProperties();clickHouseProperties.setSocketTimeout(60000); 如果配置并导入样例工程中的“clickhouse-example.properties”配置文件中“sslUsed”参数配置为“true”时，则需要设置如下连接属性： clickHouseProperties.setSsl(true);clickHouseProperties.setSslMode("none"); 父主题：样例代码说明

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse简介:ClickHouse简介

ClickHouse简介 ClickHouse是面向联机分析处理的列式数据库，支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点：数据压缩比高多核并行计算向量化计算引擎支持嵌套数据结构支持稀疏索引支持数据Insert和Update ClickHouse的应用场景：实时数仓场景使用流式计算引擎（如Flink）把实时数据写入ClickHouse，借助ClickHouse的优异查询性能，在亚秒级内响应多维度、多模式的实时查询分析请求。离线查询场景把规模庞大的业务数据导入到ClickHouse，构造数亿至数百亿记录规模、数百以上的维度的大宽表，随时进行个性化统计和持续探索式查询分析，辅助商业决策，具有非常好的查询体验。

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse样例工程介绍

ClickHouse样例工程介绍 MRS样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地解压，即可获取各组件对应的样例代码工程。当前MRS提供以下ClickHouse相关样例工程：表1 ClickHouse相关样例工程样例工程位置描述 clickhouse-examples 指导用户基于Java语言，实现MRS集群中的ClickHouse的数据表创建、删除以及数据的插入、查询等操作。本工程中包含了建立服务端连接、创建数据库、创建数据表、插入数据、查询数据及删除数据表等操作示例。父主题：概述

MapReduce服务 MRS
MapReduce服务 MRS-创建库

创建库以下代码片段在com.huawei.clickhouse.examples包的“Demo”类的createDatabase方法中。通过on cluster语句在集群中创建表1中以databaseName参数值为数据库名的数据库。 private void createDatabase(String databaseName, String clusterName) throws Exception { String createDbSql = "create database if not exists " + databaseName + " on cluster " + clusterName; util.exeSql(createDbSql);} 父主题：样例代码说明

MapReduce服务 MRS
MapReduce服务 MRS-建议:批量删除分区策略

批量删除分区策略当批量删除分区时，例如删除一个月所有的分区数据，可以使用的方式有两种：把所有的分区列出来，然后批量删除。假设city的数量有100个，那么删除一个月的所有分区需要列出3100个分区，然后批量删除。 alter table target drop partition(city=c1,date=p1), partition(city=c2,date=p2),… 只列出一个月的时间分区，然后批量删除。这种方式只需要列出31个时间分区。 alter table target drop partition(date=p1), partition(date=p2)

MapReduce服务 MRS
MapReduce服务 MRS-建立连接

建立连接创建连接时传入表1中配置的user和password作为认证凭据，ClickHouse会带着用户名和密码在服务端进行安全认证。 ClickHouseDataSource clickHouseDataSource =new ClickHouseDataSource(JDBC_PREFIX + serverList.get(tries - 1), clickHouseProperties);connection = clickHouseDataSource.getConnection(user, password); 父主题：样例代码说明

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线