华为云用户手册

  • HBase应用开发流程介绍 本文档主要基于Java API对HBase进行应用开发。 开发流程中各阶段的说明如图1和表1所示。 图1 HBase应用程序开发流程 表1 HBase应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解HBase的基本概念,了解场景需求,设计表等。 HBase应用开发常用概念 准备开发环境和运行环境 HBase的应用程序当前推荐使用Java语言进行开发。可使用Eclipse工具。HBase的运行环境即HBase客户端,请根据指导完成客户端的安装和配置。 准备本地应用开发环境 准备工程 HBase提供了不同场景下的样例程序,您可以导入样例工程进行程序学习。或者您可以根据指导,新建一个HBase工程。 导入并配置HBase样例工程 根据场景开发工程 提供了Java语言的样例工程,包含从建表、写入到删除表全流程的样例工程。 HBase样例程序开发思路 编译并运行程序 指导用户将开发好的程序编译并提交运行。 调测程序 查看程序运行结果 程序运行结果会写在用户指定的路径下。用户还可以通过UI查看应用运行情况。 查看HBase应用调测结果 父主题: HBase应用开发概述
  • OpenTSDB应用开发环境简介 在进行二次开发时,要准备的开发环境如表1所示。同时需要准备运行调测的Linux环境,用于验证应用程序运行正常。 表1 开发环境 准备 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装JDK 开发环境的基本配置。版本要求:1.8及以上。 安装和配置Eclipse 用于开发OpenTSDB应用程序的工具。 网络 确保客户端与OpenTSDB服务主机在网络上互通。 父主题: 准备OpenTSDB应用开发环境
  • 准备运行环境 安装客户端。在节点上安装客户端,如安装到“/opt/client”目录。 确认服务端Spark组件已经安装,并正常运行。 客户端运行环境已安装1.7或1.8版本的JDK。 获取并解压缩安装包“MRS_Spark_Client.tar”。执行如下命令解压。 tar -xvf MRS_Spark_Client.tar tar -xvf MRS_Spark_ClientConfig.tar 由于不兼容老版本客户端,建议用户获取与服务端集群相同版本的客户端安装包进行安装部署。 进入解压文件夹,即“MRS_Spark_ClientConfig”,执行下列命令安装客户端 sh install.sh /opt/client 其中“/opt/client”为用户自定义路径,此处仅为举例。 进入客户端安装目录“/opt/client”,执行下列命令初始化环境变量。 source bigdata_env
  • 功能简介 Spark的REST API以JSON格式展现Web UI的一些指标,提供用户一种更简单的方法去创建新的展示和监控的工具,并且支持查询正在运行的app和已经结束的app的相关信息。开源的Spark REST接口支持对Jobs、Stages、Storage、Environment和Executors的信息进行查询,MRS版本中添加了查询SQL、JDBC/ODBC Server和Streaming的信息的REST接口。开源REST接口完整和详细的描述请参考官网上的文档以了解其使用方法:https://spark.apache.org/docs/2.2.2/monitoring.html#rest-api。
  • REST API增强 SQL相关的命令:获取所有SQL语句和执行时间最长的SQL语句 SparkUI命令: curl https://192.168.195.232:26001/proxy/application_1476947670799_0053/api/v1/applications/Spark-JDBCServerapplication_1476947670799_0053/SQL?mode=monitoring --insecure 其中192.168.195.232为ResourceManager主节点的业务IP,26001为ResourceManager的端口号,application_1476947670799_0053为在YARN中的应用ID,Spark-JDBCServer是Spark应用的name。 JobHistory命令: curl https://192.168.227.16:22500/api/v1/applications/application_1478570725074_0004-part1/SQL?mode=monitoring --insecure 其中192.168.227.16为JobHistory节点的业务IP,22500为JobHistory的端口号,application_1478570725074_0004-part1为应用ID。 结果: SparkUI命令和JobHistory命令的查询结果均为: { "longestDurationOfCompletedSQL" : [ { "id" : 0, "status" : "COMPLETED", "description" : "getCallSite at SQLExecution.scala:48", "submissionTime" : "2016/11/08 15:39:00", "duration" : "2 s", "runningJobs" : [ ], "successedJobs" : [ 0 ], "failedJobs" : [ ] } ], "sqls" : [ { "id" : 0, "status" : "COMPLETED", "description" : "getCallSite at SQLExecution.scala:48", "submissionTime" : "2016/11/08 15:39:00", "duration" : "2 s", "runningJobs" : [ ], "successedJobs" : [ 0 ], "failedJobs" : [ ] }] } 结果分析: 通过这个命令,可以查询当前应用的所有SQL语句的信息(即结果中“sqls”的部分),执行时间最长的SQL语句的信息(即结果中“longestDurationOfCompletedSQL”的部分)。每个SQL语句的信息如下表3。 表3 SQL的常用信息 参数 描述 id SQL语句的ID status SQL语句的执行状态,有RUNNING、COMPLETED、FAILED三种 runningJobs SQL语句产生的job中,正在执行的job列表 successedJobs SQL语句产生的job中,执行成功的job列表 failedJobs SQL语句产生的job中,执行失败的job列表
  • REST接口 通过以下命令可跳过REST接口过滤器获取相应的应用信息。 获取JobHistory中所有应用信息: 命令: curl https://192.168.227.16:18080/api/v1/applications?mode=monitoring --insecure 其中192.168.227.16为JobHistory节点的业务IP,18080为JobHistory的端口号。 结果: [ { "id" : "application_1478570725074_0042", "name" : "Spark-JDBCServer", "attempts" : [ { "startTime" : "2016-11-09T16:57:15.237CST", "endTime" : "2016-11-09T17:01:22.573CST", "lastUpdated" : "2016-11-09T17:01:22.614CST", "duration" : 247336, "sparkUser" : "spark", "completed" : true } ] }, { "id" : "application_1478570725074_0047-part1", "name" : "SparkSQL::192.168.169.84", "attempts" : [ { "startTime" : "2016-11-10T11:57:36.626CST", "endTime" : "1969-12-31T07:59:59.999CST", "lastUpdated" : "2016-11-10T11:57:48.613CST", "duration" : 0, "sparkUser" : "admin", "completed" : false } ] }] 结果分析: 通过这个命令,可以查询当前集群中所有的Spark应用(包括正在运行的应用和已经完成的应用),每个应用的信息如下表 1 。 表1 应用常用信息 参数 描述 id 应用的ID name 应用的Name attempts 应用的尝试,包含了开始时间、结束时间、执行用户、是否完成等信息 获取JobHistory中某个应用的信息: 命令: curl https://192.168.227.16:18080/api/v1/applications/application_1478570725074_0042?mode=monitoring --insecure 其中192.168.227.16为JobHistory节点的业务IP,18080为JobHistory的端口号,application_1478570725074_0042为应用的id。 结果: { "id" : "application_1478570725074_0042", "name" : "Spark-JDBCServer", "attempts" : [ { "startTime" : "2016-11-09T16:57:15.237CST", "endTime" : "2016-11-09T17:01:22.573CST", "lastUpdated" : "2016-11-09T17:01:22.614CST", "duration" : 247336, "sparkUser" : "spark", "completed" : true } ] } 结果分析: 通过这个命令,可以查询某个Spark应用的信息,显示的信息如表1所示。 获取正在执行的某个应用的Executor信息: 针对alive executor命令: curl https://192.168.169.84:26001/proxy/application_1478570725074_0046/api/v1/applications/application_1478570725074_0046/executors?mode=monitoring --insecure 针对全部executor(alive&dead)命令: curl https://192.168.169.84:26001/proxy/application_1478570725074_0046/api/v1/applications/application_1478570725074_0046/allexecutors?mode=monitoring --insecure 其中192.168.195.232为ResourceManager主节点的业务IP,26001为ResourceManager的端口号,application_1478570725074_0046为在YARN中的应用ID。 结果: [{ "id" : "driver", "hostPort" : "192.168.169.84:23886", "isActive" : true, "rddBlocks" : 0, "memoryUsed" : 0, "diskUsed" : 0, "activeTasks" : 0, "failedTasks" : 0, "completedTasks" : 0, "totalTasks" : 0, "totalDuration" : 0, "totalInputBytes" : 0, "totalShuffleRead" : 0, "totalShuffleWrite" : 0, "maxMemory" : 278019440, "executorLogs" : { } }, { "id" : "1", "hostPort" : "192.168.169.84:23902", "isActive" : true, "rddBlocks" : 0, "memoryUsed" : 0, "diskUsed" : 0, "activeTasks" : 0, "failedTasks" : 0, "completedTasks" : 0, "totalTasks" : 0, "totalDuration" : 0, "totalInputBytes" : 0, "totalShuffleRead" : 0, "totalShuffleWrite" : 0, "maxMemory" : 555755765, "executorLogs" : { "stdout" : "https://XTJ-224:26010/node/containerlogs/container_1478570725074_0049_01_000002/admin/stdout?start=-4096", "stderr" : "https://XTJ-224:26010/node/containerlogs/container_1478570725074_0049_01_000002/admin/stderr?start=-4096" } } ] 结果分析: 通过这个命令,可以查询当前应用的所有Executor信息(包括Driver),每个Executor的信息包含如下表 2所示的常用信息。 表2 Executor常用信息 参数 描述 id Executor的ID hostPort Executor所在节点的ip:端口 executorLogs Executor的日志查看路径
  • Hive应用开发流程介绍 开发流程中各阶段的说明如图1和表1所示。 图1 Hive应用程序开发流程 表1 Hive应用开发的流程说明 阶段 说明 参考文档 了解基本概念 在开始开发应用前,需要了解Hive的基本概念。 Hive应用开发常用概念 准备开发和运行环境 Hive的应用程序支持使用Java、Python两种语言进行开发。推荐使用Eclipse工具,请根据指导完成不同语言的开发环境配置。 Hive应用开发环境简介 根据场景开发工程 提供了Java、Python两种不同语言的样例工程,还提供了从建表、数据加载到数据查询的样例工程。 Hive样例程序开发思路 运行程序及查看结果 指导用户将开发好的程序编译提交运行并查看结果。 在Linux中调测Hive JDBC应用 在Linux中调测Hive HCatalog应用 父主题: Hive应用开发概述
  • 回答 问题原因: 在IBM JDK下建立的JDBC connection时间超过登录用户的认证超时时间(默认一天),导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同,IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新,导致即使显式调用relogin也无法得到刷新。 解决措施: 通常情况下,在发现JDBC connection不可用的时候,可以关闭该connection,重新创建一个connection继续执行。
  • 安全认证代码 目前是统一调用LoginUtil类进行安全认证。 在MapReduce样例工程代码中,test@HADOOP.COM、user.keytab和krb5.conf为示例,实际操作时请联系管理员获取相应账号对应权限的keytab文件和krb5.conf文件,并将keytab文件和krb5.conf文件放入到样例代码中的conf目录,安全登录方法如下代码所示。 认证信息需要根据实际环境修改。 public static final String PRINCIPAL= "test@HADOOP.COM"; public static final String KEYTAB = FemaleInfoCollector.class.getClassLoader().getResource("user.keytab").getPath(); public static final String KRB = FemaleInfoCollector.class.getClassLoader().getResource("krb5.conf").getPath(); // 判断是否为安全模式 if("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))){ //安全登录 System.setProperty("java.security.krb5.conf", KRB); LoginUtil.login(PRINCIPAL, KEYTAB, KRB, conf); }
  • 场景说明 在kerberos认证集群环境下,各个组件之间的相互通信不能够简单的互通,而需要在通信之前进行相互认证,以确保通信的安全性。 用户在提交MapReduce应用程序时,需要与Yarn、HDFS等之间进行通信。那么提交MapReduce的应用程序中需要写入安全认证代码,确保MapReduce程序能够正常运行。 安全认证有两种方式。 命令行认证 提交MapReduce应用程序运行前,在MapReduce客户端执行如下命令获得认证。 kinit 组件业务用户 代码认证 通过获取客户端的principal和keytab文件在应用程序中进行认证。
  • 代码样例 以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseExample”类的testFilterList方法中 public void testFilterList() { LOG.info("Entering testFilterList."); Table table = null; // Instantiate a ResultScanner object. ResultScanner rScanner = null; try { // Create the Configuration instance. table = conn.getTable(tableName); // Instantiate a Get object. Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name")); // Instantiate a FilterList object in which filters have "and" // relationship with each other. FilterList list = new FilterList(Operator.MUST_PASS_ALL); // Obtain data with age of greater than or equal to 20. list.addFilter(new SingleColumnValueFilter(Bytes.toBytes("info"), Bytes.toBytes("age"), CompareOp.GREATER_OR_EQUAL, Bytes.toBytes(new Long(20)))); // Obtain data with age of less than or equal to 29. list.addFilter(new SingleColumnValueFilter(Bytes.toBytes("info"), Bytes.toBytes("age"), CompareOp.LESS_OR_EQUAL, Bytes.toBytes(new Long(29)))); scan.setFilter(list); // Submit a scan request. rScanner = table.getScanner(scan); // Print query results. for (Result r = rScanner.next(); r != null; r = rScanner.next()) { for (Cell cell : r.rawCells()) { LOG.info(Bytes.toString(CellUtil.cloneRow(cell)) + ":" + Bytes.toString(CellUtil.cloneFamily(cell)) + "," + Bytes.toString(CellUtil.cloneQualifier(cell)) + "," + Bytes.toString(CellUtil.cloneValue(cell))); } } LOG.info("Filter list successfully."); } catch (IOException e) { LOG.error("Filter list failed ", e); } finally { if (rScanner != null) { // Close the scanner object. rScanner.close(); } if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed ", e); } } } LOG.info("Exiting testFilterList."); }
  • 准备本地应用开发环境 在进行应用开发时,要准备的开发环境如表1所示。同时需要准备运行调测的Linux环境,用于验证应用程序运行正常。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统。 运行环境:Linux系统 安装JDK 开发和运行环境的基本配置。版本要求如下: MRS集群的服务端和客户端仅支持自带的Oracle JDK(版本为1.8),不允许替换。 对于客户应用需引用SDK类的Jar包运行在客户应用进程中的,支持Oracle JDK和IBM JDK。 Oracle JDK:支持1.7和1.8版本。 IBM JDK:推荐1.7.8.10、1.7.9.40和1.8.3.0版本。 说明: 如果开发环境使用的是JDK1.7版本,则Flink集群的运行环境可以是JDK1.7也可以是JDK1.8。 如果开发环境使用的是JDK1.8版本,则Flink集群的运行环境必须是JDK1.8,否则,如果运行环境是JDK1.7,则会报JDK版本错误的信息。 安装和配置IDEA 用于开发Flink应用程序的工具。版本要求:14.1.7。 安装Scala Scala开发环境的基本配置。版本要求:2.11.12。 安装Scala插件 Scala开发环境的基本配置。版本要求:1.5.4。 准备开发用户 参考准备Flink应用开发用户章节配置。 安装客户端 参考安装Flink客户端章节配置。 父主题: 准备Flink应用开发环境
  • Client HDFS Client主要包括五种方式:JAVA API、C API、Shell、HTTP REST API、WEB UI。 Java API 提供HDFS文件系统的应用接口,本开发指南主要介绍如何使用Java APIHDFS Java API接口介绍 HDFS文件系统的应用开发。 C API 提供HDFS文件系统的应用接口,使用C语言开发的用户可参考C接口HDFS C API接口介绍 的描述进行应用开发。 Shell 提供shell命令 HDFS Shell命令介绍 完成HDFS文件系统的基本操作。 HTTP REST API 提供除Shell、Java API和C API以外的其他接口,可通过此接口 HDFS HTTP REST API接口介绍 监控HDFS状态等信息。 WEB UI 提供Web可视化组件管理界面。
  • 操作步骤 对于Scala开发环境,推荐使用IDEA工具,安装要求如下。 JDK使用1.7版本(或1.8版本) IntelliJ IDEA(版本:13.1.6) Scala(版本:2.11.8) Scala插件(版本:0.35.683) Spark不支持当客户端程序使用IBM JDK 1.7运行时,使用yarn-client模式向服务端提交Spark任务。 Oracle JDK需进行安全加固,具体操作如下。 到Oracle官方网站获取与JDK版本对应的JCE(Java Cryptography Extension)文件。JCE文件解压后包含“local_policy.jar”和“US_export_policy.jar”。拷贝jar包到如下路径。 Linux:JDK安装目录/jre/lib/security Windows:JDK安装目录\jre\lib\security 将“客户端安装目录/JDK/jdk/jre/lib/ext/”目录下“SMS4JA.jar”拷贝到如下路径。 Linux:JDK安装目录/jre/lib/ext/ Windows:JDK安装目录\jre\lib\ext\ 安装IntelliJ IDEA、JDK和Scala工具,并进行相应的配置。 安装JDK。 安装IntelliJ IDEA。 安装Scala工具。 在IntelliJ IDEA中配置JDK。 打开IntelliJ IDEA,选择“Configure”。 图1 Quick Start 在“Configure”页面中选择的“Project Defaults”。 图2 Configure 在“Project Defaults”页面中,选择“Project Structure”。 图3 Project Defaults 在打开的“Project Structure”页面中,选择“SDKs”,单击绿色加号添加JDK。 图4 添加JDK 在弹出的“Select Home Directory for JDK”窗口,选择对应的JDK目录,然后单击“OK”。 图5 选择JDK目录 完成JDK选择后,单击“OK”完成配置。 图6 完成JDK配置 在IntelliJ IDEA中安装Scala插件。 在“Configure”页面,选择“Plugins”。 图7 Plugins 在“Plugins”页面,选择“Install plugin from disk”。 图8 Install plugin from disk 在“Choose Plugin File”页面,选择对应版本的Scala插件包,单击“OK”。 在“Plugins”页面,单击“Apply”安装Scala插件。 在弹出的“Plugins Changed”页面,单击“Restart”,使配置生效。 图9 Plugins Changed
  • 操作步骤 查看Flink应用运行结果数据。 当用户查看执行结果时,需要在Flink的web页面上查看Task Manager的Stdout日志。 当执行结果输出到文件或者其他由Flink应用程序指定途径,您可以通过指定文件或其他途径获取到运行结果数据。以下用Checkpoint、Pipeline和配置表与流JOIN为例: 查看Checkpoint结果和文件 结果在flink的“taskmanager.out”文件中,用户可以通过Flink的WebUI查看“task manager”标签下的out按钮查看。 有两种方式查看Checkpoint文件。 若将checkpoint的快照信息保存到HDFS,则通过执行hdfs dfs -ls hdfs://hacluster/flink-checkpoint/命令查看。 若将checkpoint的快照信息保存到本地文件,则可直接登录到各个节点查看。 查看Stream SQL Join结果 结果在flink的“taskmanager.out”文件中,用户可以通过Flink的WebUI查看“task manager”标签下的out按钮查看。 使用Flink Web页面查看Flink应用程序运行情况 Flink Web页面主要包括了Overview、Running Jobs、Completed Jobs、Task Managers、Job Manager和Logout等部分。 在YARN的Web UI界面,查找到对应的Flink应用程序。单击应用信息的最后一列“ApplicationMaster”,即可进入Flink Web页面。 查看程序执行的打印结果:找到对应的Task Manager,查看对应的Stdout标签日志信息。 查看Flink日志获取应用运行情况 有两种方式获取Flink日志,分别为通过Flink Web页面或者Yarn的日志 Flink Web页面可以查看Task Managers、Job Manager部分的日志。 Yarn页面主要包括了Job Manager日志以及GC日志等。 页面入口:在YARN的Web UI界面,查找到对应的Flink应用程序。单击应用信息的第一列ID,然后选择Logs列单击进去即可打开。
  • HiveQL接口介绍 HiveQL支持当前使用的MRS Hive与对应开源Hive版本中的所有特性,详情请参见https://cwiki.apache.org/confluence/display/hive/languagemanual。MRS Hive版本与开源Hive版本的对应关系如表1所示。 表1 MRS Hive与开源版本对应关系一览表 MRS版本 开源Hive版本 MRS 1.9.x 2.3.3 父主题: Hive应用开发常见问题
  • Storm应用开发环境简介 本开发指南提供了MRS产品Storm组件基于开源Storm的Eclipse样例工程和常用接口说明,便于开发者快速熟悉Storm开发。 开发环境准备分为应用开发客户端和应用提交客户端;应用开发一般是在Windows环境下进行;应用提交一般是在Linux环境下进行。 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7以上版本。 安装JDK 开发环境的基本配置。版本要求:1.7或者1.8。 说明: 基于安全考虑,服务端只支持TLS 1.1和TLS 1.2加密协议,IBM JDK默认TLS只支持1.0,若使用IBM JDK,请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”,设置后可以同时支持TLS1.0/1.1/1.2。 详情请参见:https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls 安装和配置Eclipse 用于开发Storm应用程序的工具。 网络 确保客户端与Storm服务主机在网络上互通。 父主题: 准备Storm应用开发环境
  • Kafka 样例工程配置文件说明 Conf目录个各配置文件及重要参数配置说明 Producer API配置项 表1 producer.properties文件配置项 参数 描述 备注 security.protocol 安全协议类型 生产者使用的安全协议类型,当前Kerberos开启的模式下仅支持SASL协议,需要配置为SASL_PLAINTEXT。Kerberos未开启的模式下配置为PLAINTEXT。 kerberos.domain.name 域名 MRS服务集群的Kerberos域名,未开启Kerberos认证的集群无需配置。 sasl.kerberos.service.name 服务名 Kafka集群运行,所使用的Kerberos用户名(需配置为kafka)。未开启Kerberos认证的集群无需配置。 Consumer API配置项 表2 consumer.properties文件配置项 参数 描述 备注 security.protocol 安全协议类型 消费者使用的安全协议类型,当前安全模式下Kerberos开启的模式下仅支持SASL协议,需要配置为SASL_PLAINTEXT。Kerberos未开启的模式下配置为PLAINTEXT。 kerberos.domain.name 域名 MRS服务集群的Kerberos域名,未开启Kerberos认证的集群无需配置。 group.id 消费者的group id - auto.commit.interval.ms 是否自动提交offset 布尔值参数,默认值为true sasl.kerberos.service.name 服务名 Kafka集群运行,所使用的Kerberos用户名(需配置为kafka)。未开启Kerberos认证的集群无需配置。 客户端信息配置项 表3 client.properties文件配置项 参数 描述 备注 metadata.broker.list 元数据Broker地址列表 通过此参数值,创建与元数据Broker之间的连接,需要直接访问元数据的API需要用到此参数。访问端口仅支持不开启Kerberos模式下的端口,端口说明详见Kafka安全接口介绍 kafka.client.zookeeper.principal kafka集群访问zookeeper的认证和域名 - bootstrap.servers Broker地址列表 通过此参数值,创建与Broker之间的连接。端口配置项详见Kafka安全接口介绍 zookeeper.connect zookeeper地址列表 通过此参数,访问zookeeper,末尾需要带上kafka服务名kafka MRS服务是否开启Kerberos认证配置项 表4 kafkaSecurityMode文件配置项 参数 描述 备注 kafka.client.security.mode kafka所在的MRS服务集群是否开启Kerberos认证配置项 若开启了Kerberos认证,设置为yes,否则设置为no。 log4j日志配置项文件log4j.properties log4j日志框架的配置文件,默认情况不输入样例工程运行日志。 父主题: 开发Kafka应用
  • 代码样例 /** * read file * @throws java.io.IOException */ private void read() throws IOException { AlluxioURI path = new AlluxioURI(testFilePath); FileInStream in = null; try{ in = fSystem.openFile(path); byte[] buffer = new byte[1024]; int len; String content = ""; while((len = in.read(buffer)) != -1){ String bufferStr = new String(buffer,0, len); content += bufferStr; } System.out.println(content); } catch (Exception e){ System.out.println("Failed to read file. Exception:" + e); } finally { close(in); } }
  • 应用开发操作步骤 确认Storm和HDFS组件已经安装,并正常运行。 将storm-examples导入到Eclipse开发环境,请参见导入并配置Storm样例工程。 如果集群启用了安全服务,按登录方式需要进行以下配置。 keytab方式:需要从管理员处获取一个“人机”用户,用于认证,并且获取到该用户的keytab文件。 票据方式:从管理员处获取一个“人机”用户,用于后续的安全登录,开启Kerberos服务的renewable和forwardable开关并且设置票据刷新周期,开启成功后重启kerberos及相关组件。 获取的用户需要属于storm组。 Kerberos服务的renewable、forwardable开关和票据刷新周期的设置在Kerberos服务的配置页面的“系统”标签下,票据刷新周期的修改可以根据实际情况修改“kdc_renew_lifetime”和“kdc_max_renewable_life”的值。 下载并安装HDFS客户端,参见《准备Linux客户端运行环境》。 获取HDFS相关配置文件。获取方法如下。 在安装好的HDFS客户端目录下找到目录“/opt/client/HDFS/hadoop/etc/hadoop”,在该目录下获取到配置文件“core-site.xml”和“hdfs-site.xml”。 如果使用keytab登录方式,按3获取keytab文件;如果使用票据方式,则无需获取额外的配置文件。 将获取到的这些文件拷贝到示例工程的 src/main/resources目录。 获取到的keytab文件默认文件名为user.keytab,若用户需要修改,可直接修改文件名,但在提交任务时需要额外上传修改后的文件名作为参数。
  • 部署运行及结果查看 在Storm示例代码根目录执行如下命令打包:"mvn package"。执行成功后,将会在target目录生成storm-examples-1.0.jar。 执行命令提交拓扑。 keytab方式下,若用户修改了keytab文件名,如修改为“huawei.keytab”,则需要在命令中增加第二个参数进行说明,提交命令示例(拓扑名为hdfs-test): storm jar /opt/jartarget/storm-examples-1.0.jar com.huawei.storm.example.hdfs.SimpleHDFSTopology hdfs-test huawei.keytab 安全模式下在提交source.jar之前,请确保已经进行kerberos安全登录,并且keytab方式下,登录用户和所上传keytab所属用户必须是同一个用户。 拓扑提交成功后,请登录HDFS集群查看/user/foo目录下是否有文件生成。 如果使用票据登录,则需要使用命令行定期上传票据,具体周期由票据刷新截止时间而定,步骤如下。 在安装好的storm客户端目录的Storm/storm-0.10.0/conf/storm.yaml文件尾部新起一行添加如下内容。 topology.auto-credentials: - backtype.storm.security.auth.kerberos.AutoTGT 执行命令:./storm upload-credentials hdfs-test
  • 调测HBase Python样例程序 仅MRS 1.9.x及之前版本支持HBase python样例代码调测。 HBase支持使用自带的ThriftServer2服务通过python来访问HBase服务。python样例仅支持在Linux环境中运行,调测HBase python样例程序需有与集群环境网络相通的ECS,详情请参见准备本地应用开发环境,并需要安装python环境,安装包下载详情请参见:https://www.python.org/。当前以在集群的master节点上运行样例为例。 搭建样例运行环境。 获取运行样例程序时python依赖,请从https://pypi.org/地址中搜索下载decorator、gssapi、kerberos、krbcontext、pure-sasl、thrift包(未开启Kerberos认证的普通集群仅需安装thrift包),并上传到master节点上,例如:新建目录“/opt/hbase-examples/python”,并上传到该目录下。 decorator-4.3.2.tar.gz gssapi-1.5.1.tar.gz kerberos-1.3.0.tar.gz krbcontext-0.8.tar.gz pure-sasl-0.6.1.tar.gz thrift-0.11.0.tar.gz 将样例工程中的“hbase-python-example”文件夹上传到集群Master节点的“/opt/hbase-examples”下,并上传从准备HBase应用开发用户中获取的认证文件至该目录下。 在“/opt/hbase-examples”新建hbasepython.properties文件,并修改配置内容如下。 clientHome=/opt/client exampleCodeDir=/opt/hbase-examples/hbase-python-example pythonLib=/opt/hbase-examples/python keyTabFile=/opt/hbase-examples/user.keytab userName=hbaseuser thriftIp=xxx.xxx.xx.xxx clientHome为集群客户端路径 exampleCodeDir为hbase-python-example文件路径 pythonLib为1中python依赖存放路径 keyTabFile为从准备HBase应用开发用户获取的用户认证凭据user.keytab userName为准备HBase应用开发用户中开发用户名 thriftIp为安装了thriftserver2的节点的IP地址 执行如下命令创建表名为example的HBase表。 source /opt/client/bigdata_env kinit 用户名 echo "create 'example','family1','family2'" | hbase shell 安装python环境并运行程序。 cd /opt/hbase-examples/hbase-python-example sh initEnvAndRunDemo.sh /opt/hbase-examples/hbasepython.properties 在运行程序之前需要格式化initEnvAndRunDemo.sh脚本。例如执行,dos2unix /opt/hbase-examples/hbasepython.properties 在执行脚本前,请确定“example”表包含列族'family1','family2'并已经存在于集群中。 再次运行程序时只需进入“/opt/hbase-examples/hbase-python-example”目录下,执行如下命令执行程序调测样例:python DemoClient.py HBase Python应用程序运行完成后,可直接通过运行结果查看应用程序运行情况。 图1 程序运行成功信息 父主题: 调测HBase应用
  • 回答 Spark部署时,如下jar包存放在客户端的“$SPARK_HOME/jars/streamingClient”目录以及服务端的“/opt/Bigdata/MRS/FusionInsight-Spark-2.2.1/spark/jars/streamingClient”目录: kafka-clients-0.8.2.1.jar kafka_2.10-0.8.2.1.jar spark-streaming-kafka_2.10-1.5.1.jar 由于$SPARK_HOME/lib/streamingClient/*默认没有添加到classpath,所以需要手动配置。 在提交应用程序运行时,在命令中添加如下参数即可: --jars $SPARK_CLIENT_HOME/jars/streamingClient/kafka-clients-0.8.2.1.jar,$SPARK_CLIENT_HOME/jars/streamingClient/kafka_2.10-0.8.2.1.jar,$SPARK_CLIENT_HOME/jars/streamingClient/park-streaming-kafka_2.10-1.5.1.jar 用户自己开发的应用程序以及样例工程都支持上述参数。 但是Spark开源社区提供的KafkaWordCount等样例程序,不仅需要添加--jars参数,还需要配置其他,否则会报“ClassNotFoundException”错误,yarn-client和yarn-cluster模式下稍有不同。 yarn-client模式下 在除--jars参数外,在客户端“spark-defaults.conf”配置文件中,将“spark.driver.extraClassPath”参数值中添加客户端依赖包路径,如“$SPARK_HOME/lib/streamingClient/*”。 yarn-cluster模式下 除--jars参数外,还需要配置其他,有三种方法任选其一即可,具体如下。 在客户端spark-defaults.conf配置文件中,在“spark.yarn.cluster.driver.extraClassPath”参数值中添加服务端的依赖包路径,如“/opt/huawei/Bigdata/FusionInsight/spark/spark/lib/streamingClient/*”。 将各服务端节点的“spark-examples_2.10-1.5.1.jar”包删除。 在客户端“spark-defaults.conf”配置文件中,修改或增加配置选项“spark.driver.userClassPathFirst = true”。
  • HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase设计目标是用来解决关系型数据库在处理海量数据时的局限性。 HBase使用场景有如下几个特点: 处理海量数据(TB或PB级别以上)。 具有高吞吐量。 在海量数据中实现高效的随机读取。 具有很好的伸缩能力。 能够同时处理结构化和非结构化的数据。 不需要完全拥有传统关系型数据库所具备的ACID特性。ACID特性指原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性(Durability)。 HBase中的表具有如下特点: 大:一个表可以有上亿行,上百万列。 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
  • 接口类型简介 由于HBase本身是由java语言开发出来的,且java语言具有简洁通用易懂的特性,推荐用户使用java语言进行HBase应用程序开发。 HBase采用的接口与Apache HBase保持一致,请参见:http://hbase.apache.org/apidocs/index.html。 HBase通过接口调用,可提供的功能如表1所示。 表1 HBase接口提供的功能 功能 说明 CRUD数据读写功能 增查改删 高级特性 过滤器、协处理器 管理功能 表管理、集群管理
  • 运行“通过JDBC访问Spark SQL”样例程序 在工程目录下执行mvn package命令生成jar包,在工程目录target目录下获取,比如:FemaleInfoCollection.jar 将生成的Jar包(如CollectFemaleInfo.jar)拷贝到Spark运行环境下(即Spark客户端),如“/opt/female”。开启Kerberos认证的安全集群下把从准备Spark应用开发用户中获取的user.keytab和krb5.conf文件拷贝到Spark客户端conf目录下,如:/opt/client/Spark/spark/conf;未开启Kerberos认证集群可不必拷贝user.keytab和krb5.conf文件。 运行“通过JDBC访问Spark SQL”样例程序(Scala和Java语言)。 在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致JobHistory部分数据丢失。 运行程序时可根据需要选择运行模式: --deploy-mode client:driver进程在客户端运行,运行结果在程序运行后直接输出。 --deploy-mode cluster:driver进程在Yarn的ApplicationMaster(AM)中运行,运行结果和日志在Yarn的WebUI界面输出。 进入Spark客户端目录,使用java -cp命令运行代码。 java -cp ${SPARK_HOME}/jars/*:${SPARK_HOME}/conf:/opt/female/SparkThriftServerJavaExample-*.jar com.huawei.bigdata.spark.examples.ThriftServerQueriesTest ${SPARK_HOME}/conf/hive-site.xml ${SPARK_HOME}/conf/spark-defaults.conf 普通集群需要注释掉安全配置部分代码,详情请参见2和2。 上面的命令行中,您可以根据不同样例工程,最小化选择其对应的运行依赖包。样例工程对应的运行依赖包详情,请参见1。
  • 提交SparkLauncher应用程序 在工程目录下执行mvn package命令生成jar包,在工程目录target目录下获取,比如:FemaleInfoCollection.jar 将生成的Jar包(如CollectFemaleInfo.jar)拷贝到Spark运行环境下(即Spark客户端),如“/opt/female”。开启Kerberos认证的安全集群下把从准备Spark应用开发用户中获取的user.keytab和krb5.conf文件拷贝到Spark客户端conf目录下,如:/opt/client/Spark/spark/conf;未开启Kerberos认证集群可不必拷贝user.keytab和krb5.conf文件。 提交SparkLauncher应用程序。 在Spark任务运行过程中禁止重启HDFS服务或者重启所有DataNode实例,否则可能会导致任务失败,并可能导致JobHistory部分数据丢失。 运行程序时可根据需要选择运行模式: --deploy-mode client:driver进程在客户端运行,运行结果在程序运行后直接输出。 --deploy-mode cluster:driver进程在Yarn的ApplicationMaster(AM)中运行,运行结果和日志在Yarn的WebUI界面输出。 java -cp $SPARK_HOME/jars/*:{JAR_PATH} com.huawei.bigdata.spark.examples.SparkLauncherExample yarn-client {TARGET_JAR_PATH} { TARGET_JAR_MAIN_CLASS} {args} JAR_PATH为SparkLauncher应用程序jar包所在路径。 TARGET_JAR_PATH为待提交的spark application应用程序jar包所在路径。 args为待提交的spark application应用程序的参数。
  • 应用开发操作步骤 确认Storm组件已经安装,并正常运行。如果业务需要连接其他组件,请同时安装该组件并运行。 将storm-examples导入到Eclipse开发环境,请参见准备Storm应用开发环境。 参考storm-examples工程src/main/resources/flux-examples目录下的相关yaml应用示例,开发客户端业务。 获取相关配置文件。 本步骤只适用于业务中有访问外部组件需求的场景,如HDFS、HBase等,获取方式请参见Storm-HDFS开发指引或者Storm-HBase开发指引。若业务无需获取相关配置文件,请忽略本步骤。
  • 部署运行及结果查看 使用如下命令打包:“mvn package”。执行成功后,将会在target目录生成storm-examples-1.0.jar。 将打好的jar包,以及开发好的yaml文件及相关的properties文件拷贝至storm客户端所在主机的任意目录下,如“/opt”。 执行命令提交拓扑。 storm jar /opt/jartarget/storm-examples-1.0.jar org.apache.storm.flux.Flux --remote /opt/my-topology.yaml 如果设置业务以本地模式启动,则提交命令如下。 storm jar /opt/jartarget/storm-examples-1.0.jar org.apache.storm.flux.Flux --local /opt/my-topology.yaml 如果业务设置为本地模式,请确保提交环境为普通模式环境,当前不支持安全环境下使用命令提交本地模式的业务。 如果使用了properties文件,则提交命令如下。 storm jar /opt/jartarget/storm-examples-1.0.jar org.apache.storm.flux.Flux --remote /opt/my-topology.yaml --filter /opt/my-prop.properties 拓扑提交成功后请自行登录storm UI查看。
  • Hive简介 Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数据,其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。 Hive主要特点如下: 通过HiveQL语言非常容易的完成数据提取、转换和加载(ETL)。 通过HiveQL完成海量结构化数据分析。 灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,ORCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展。 多种客户端连接方式,支持JDBC接口。 Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。
共100000条