华为云用户手册

MapReduce服务 MRS-MRS是否支持变更MRS集群节点？

MRS是否支持变更MRS集群节点？ MRS管理控制台不支持变更集群节点，也不建议用户在ECS管理控制台直接修改MRS集群节点。如果手动在ECS管理控制台对集群节点执行停止ECS、删除ECS、修改或重装ECS操作系统，以及修改ECS规格的操作，可能影响集群稳定运行。如果您对MRS集群节点进行了上述操作，MRS会自动识别并直接删除发生变更的集群节点。您可以登录MRS管理控制台，通过扩容恢复已经删除的节点。请勿在扩容过程中对正在扩容的节点进行操作。父主题：集群管理类

MapReduce服务 MRS
MapReduce服务 MRS-MRS集群版本对应的操作系统是什么？

MRS集群版本对应的操作系统是什么？不同版本的集群对应的主机操作系统不同，具体对应关系如表1所示。表1 MRS集群版本与主机操作系统对应关系 MRS集群版本 x86计算鲲鹏计算(ARM) MRS 3.2.0-LTS.1 EulerOS 2.10 EulerOS 2.10 MRS 3.1.5 EulerOS 2.9 EulerOS 2.9 MRS 3.1.2-LTS.3 EulerOS 2.9 EulerOS 2.9 MRS 3.1.0 EulerOS 2.5 EulerOS 2.8 MRS 1.9.2 EulerOS 2.2 EulerOS 2.8 父主题：产品咨询类

MapReduce服务 MRS
MapReduce服务 MRS-如何在MRS集群中安装Kafka，Flume组件？

如何在MRS集群中安装Kafka，Flume组件？已经创建的MRS 3.1.0及之前版本集群不支持安装组件。Kafka和Flume为流式集群的组件，如果要安装Kafka和Flume组件，则需要创建流式集群或者混合集群并选择该组件。 MRS 3.1.2-LTS.3及之后版本的自定义类型集群支持添加组件，具体请参见管理服务操作。 Kafka和Flume组件，使用方法请参考使用Kafka、使用Flume。父主题：集群管理类

MapReduce服务 MRS
MapReduce服务 MRS-如何修改FlumeClient的日志为标准输出日志？

如何修改FlumeClient的日志为标准输出日志？登录Flume客户端安装节点。进入Flume客户端安装目录，假设Flume客户端安装路径为“/opt/FlumeClient”，可以执行以下命令。 cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin 执行./flume-manage.sh stop force命令，停止FlumeClient。执行vi ../conf/log4j.properties命令，打开log4j.properties文件，修改“flume.root.logger”的取值为“${flume.log.level},console”。执行./flume-manage.sh start force命令，重启FlumeClient。修改完成后，请检查docker配置信息是否正确。父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-Hadoop组件jar包位置和环境变量的位置在哪里？

Hadoop组件jar包位置和环境变量的位置在哪里？ hadoopstreaming.jar位置在/opt/share/hadoop-streaming-*目录下。其中*由Hadoop版本决定。 jdk环境变量：/opt/client/JDK/component_env Hadoop组件的环境变量位置：/opt/client/HDFS/component_env Hadoop客户端路径：/opt/client/HDFS/hadoop 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-数据存储在OBS和HDFS有什么区别？

数据存储在OBS和HDFS有什么区别？ MRS集群处理的数据源来源于OBS或HDFS，HDFS是Hadoop分布式文件系统（Hadoop Distributed File System），OBS（Object Storage Service）即对象存储服务，是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据，客户可以基于OBS服务 Web界面和OBS客户端对数据进行浏览、管理和使用，同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。数据存储在OBS：数据存储和计算分离，集群存储成本低，存储量不受限制，并且集群可以随时删除，但计算性能取决于OBS访问性能，相对HDFS有所下降，建议在数据计算不频繁场景下使用。数据存储在HDFS：数据存储和计算不分离，集群成本较高，计算性能高，但存储量受磁盘空间限制，删除集群前需将数据导出保存，建议在数据计算频繁场景下使用。父主题：产品咨询类

MapReduce服务 MRS
MapReduce服务 MRS-MRS是否支持同时运行多个Flume任务？

MRS是否支持同时运行多个Flume任务？ Flume客户端可以包含多个独立的数据流，即在一个配置文件properties.properties中配置多个Source、Channel、Sink。这些组件可以链接以形成多个流。例如在一个配置中配置两个数据流，示例如下： server.sources = source1 source2server.sinks = sink1 sink2server.channels = channel1 channel2#dataflow1 server.sources.source1.channels = channel1server.sinks.sink1.channel = channel1#dataflow2server.sources.source2.channels = channel2server.sinks.sink2.channel = channel2 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-Hue连接hiveserver，不释放session，报错over max user connections如何处理？

Hue连接hiveserver，不释放session，报错over max user connections如何处理？适用版本：MRS 3.1.0及之前的MRS 3.x版本。修改两个Hue节点的以下文件： /opt/Bigdata/FusionInsight_Porter_8.*/install/FusionInsight-Hue-*/hue/apps/beeswax/src/beeswax/models.py 修改文件中的396和404行的值 q = self.filter(owner=user, application=application).exclude(guid='').exclude(secret='')改为q = self.filter(owner=user, application=application).exclude(guid=None).exclude(secret=None) 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-节点互信异常如何处理？

节点互信异常如何处理？当Manager报“ALM-12066 节点间互信失效”告警，或者发现节点间无ssh互信时，可参考如下步骤操作。分别在互信集群的两端节点执行ssh-add -l 确认是否有identities信息。如果没有identities信息，执行ps -ef|grep ssh-agent找到ssh-agent进程，并kill该进程等待该进程自动重启。执行ssh-add -l 查看是否已经添加identities信息，如果已经添加，请手动ssh确认互信是否正常。如果有identities信息，需要确认/home/omm/.ssh/authorized_keys中是否有对端节点/home/omm/.ssh/id_rsa.pub文件中的信息，如果没有手动添加对端节点信息。检查/home/omm/.ssh目录下的文件权限是否正确。排查日志文件 “/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”，如果用户把omm的家目录删除了，需要联系MRS支撑人员修复。父主题：集群管理类

MapReduce服务 MRS
MapReduce服务 MRS-如何修改Clickhouse服务的allow_drop_detached配置项?

如何修改Clickhouse服务的allow_drop_detached配置项? 用root用户登录Clickhouse客户端所在节点。进入客户端目录，配置环境变量。 cd /opt/客户端安装目录 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS集群用户该用户必须具有Clickhouse管理员权限。执行命令clickhouse client --host 192.168.42.90 --secure -m，其中192.168.42.90为ClickHouseServer实例节点IP，执行结果如下： [root@server-2110082001-0017 hadoopclient]# clickhouse client --host 192.168.42.90 --secure -mClickHouse client version 21.3.4.25.Connecting to 192.168.42.90:21427.Connected to ClickHouse server version 21.3.4 revision 54447. 执行命令修改allow_drop_detached的值。例如：设置allow_drop_detached=1 set allow_drop_detached=1; 执行如下命令查看allow_drop_detached的值： SELECT *　FROM system.settings　WHERE name = 'allow_drop_detached'; 执行命令q;退出clickhouse client。父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse客户端执行SQL查询时报内存不足问题:问题现象

问题现象 ClickHouse会限制group by使用的内存量，在使用ClickHouse客户端执行SQL查询时报如下错误： Progress: 1.83 billion rows, 85.31 GB (68.80 million rows/s., 3.21 GB/s.) 6%Received exception from server:Code: 241. DB::Exception: Received from localhost:9000, 127.0.0.1. DB::Exception: Memory limit (for query) exceeded: would use 9.31 GiB (attempt to allocate chunk of 1048576 bytes), maximum: 9.31 GiB: (while reading column hits):

MapReduce服务 MRS
MapReduce服务 MRS-添加Hive服务后，提交hivesql/hivescript作业失败

添加Hive服务后，提交hivesql/hivescript作业失败该问题是由于提交作业的用户所在用户组绑定的MRS CommonOperations策略权限在同步到Manager中后没有Hive相关权限，处理方法如下：添加Hive服务完成后。登录IAM服务控制台，创建一个用户组，该用户组所绑定策略和提交作业用户所在用户组权限相同。将提交作业的用户添加到新用户组中。刷新MRS控制台集群详情页面，“IAM用户同步”会显示“未同步”。单击“IAM用户同步”右侧的“同步”。同步状态在MRS控制台页面选择“操作日志”查看当前用户是否被修改。是，则可以重新提交hive作业，否，则检视上述步骤是否全部已执行完成。是，请联系运维人员处理。否，请等待执行完成后再提交hive作业。父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-Hive使用beeline -e执行多条语句报错

Hive使用beeline -e执行多条语句报错 MRS 3.x版本Hive使用beeline执行beeline -e " use default;show tables;"报错：Error while compiling statement: FAILED: ParseException line 1:11 missing EOF at ';' near 'default' (state=42000,code=40000)。处理方法：方法一：使用beeline --entirelineascommand=false -e "use default;show tables;"。方法二：在Hive客户端如/opt/Bigdata/client/Hive目录下修改component_env文件，修改export CLIENT_HIVE_ENTIRELINEASCOMMAND=true为export CLIENT_HIVE_ENTIRELINEASCOMMAND=false。图1 修改component_env文件执行如下命令验证配置。 source /opt/Bigdata/client/bigdata_env beeline -e " use default;show tables;" 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse客户端执行SQL查询时报内存不足问题:解决方法

解决方法在执行SQL语句前，执行如下命令。注意执行前保证集群有足够内存可以设置。 SET max_memory_usage = 128000000000; #128G 如果没有上述大小内存可用，ClickHouse可以通过如下设置将“溢出”数据到磁盘。建议将max_memory_usage设置为max_bytes_before_external_group_by大小的两倍。 set max_bytes_before_external_group_by=20000000000; #20Gset max_memory_usage=40000000000; #40G 如果客户数据量大，而且是全表查询，建议按照分区进行查询或者进行升级集群core节点的规格。

MapReduce服务 MRS
MapReduce服务 MRS-开启Kerberos认证的集群如何访问Spark？

开启Kerberos认证的集群如何访问Spark？用root用户登录集群Master节点。配置环境变量。 source /opt/client/bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户。 kinit MRS集群用户例如：开发用户为“机机”用户时执行：kinit -kt user.keytab sparkuser 开发用户为“人机”用户时执行：kinit sparkuser 执行如下命令连接Spark组件客户端。 spark-beeline 在spark-beeline中执行命令，例如在obs://mrs-word001/table/目录中创建表test。 create table test(id int) location 'obs://mrs-word001/table/'; 执行如下命令查询所有表，返回结果中存在表test，即表示访问OBS成功。 show tables; 图1 Spark验证返回已创建的表名使用“Ctrl + C ”退出spark beeline。父主题： Kerberos使用

MapReduce服务 MRS
MapReduce服务 MRS-如何修改HDFS主备倒换类？

如何修改HDFS主备倒换类？当MRS 3.x版本集群使用HDFS连接NameNode报类org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider无法找到时，是由于MRS 3.x版本集群HDFS的主备倒换类默认为该类，可通过如下方式解决。方式一：添加hadoop-plugins-xxx.jar到程序的classpath或者lib目录中。 hadoop-plugins-xxx.jar包一般在HDFS客户端目录下：$HADOOP_HOME/share/hadoop/common/lib/hadoop-plugins-8.0.2-302023.jar 方式二：将HDFS的如下配置项修改为开源类： dfs.client.failover.proxy.provider.hacluster=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-LauncherJob作业执行结果为Failed. 报错信息为：jobPropertiesMap is null.

LauncherJob作业执行结果为Failed. 报错信息为：jobPropertiesMap is null. launcher作业失败的原因为：提交作业用户无“hdfs /mrs/job-properties”目录的写权限。该问题在2.1.0.6的补丁中修复，也可通过在MRS Manager页面给同步的提交作业用户赋予该目录“/mrs/job-properties”的写入权限。父主题：作业开发类

MapReduce服务 MRS
MapReduce服务 MRS-提交长时作业SparkStreaming，运行几十个小时后失败，报OBS访问403

提交长时作业SparkStreaming，运行几十个小时后失败，报OBS访问403 当用户提交作业需要读写OBS时，提交作业程序会默认为用户添加访问OBS的临时accesskey和secretkey，但是临时accesskey和secretkey有过期时间。如果需要运行像Flink和SparkStreaming这样的长时作业时，用户可通过“服务配置参数”选项框传入永久的accesskey和secretkey，以保证作业不会在运行过程中因密钥过期而执行失败。父主题：作业开发类

MapReduce服务 MRS
MapReduce服务 MRS-MRS Console页面Flink作业状态与Yarn上的作业状态不一致

MRS Console页面Flink作业状态与Yarn上的作业状态不一致为了节约存储空间，用户修改了Yarn的配置项yarn.resourcemanager.max-completed-applications，减小yarn上历史作业的记录保存个数。由于Flink是长时作业，在yarn上realJob还在运行，但launcherJob已经被删除，导致因从Yarn上查不到launcherJob，从而更新作业状态失败。该问题在2.1.0.6补丁中解决。规避方法：终止找不到launcherJob的作业，后续提交的作业状态就会更新。父主题：作业开发类

MapReduce服务 MRS
MapReduce服务 MRS-如何查看MRS作业日志？

如何查看MRS作业日志？ MRS Console页面作业管理，每一条作业支持查看日志，包含launcherJob日志和realJob日志。 launcherJob作业的日志，一般会在stderr和stdout中打印错误日志，如下图所示： realJob的日志，可以通过MRS Manager中 Yarn服务提供的ResourceManager Web UI查看。登录集群Master节点，可获取1作业的日志文件，具体hdfs路径为“/tmp/logs/{submit_user}/logs/{application_id}”。提交作业后，在Yarn的WEB UI未找到对应作业的application_id，说明该作业没有提交成功，可登录集群主Master节点，查看提交作业进程日志“/var/log/executor/logs/exe.log”。父主题：作业开发类

MapReduce服务 MRS
MapReduce服务 MRS-报错提示“当前用户在MRS Manager不存在，请先在IAM给予该用户足够的权限，再在概览页签进行IAM用户同步”

报错提示“当前用户在MRS Manager不存在，请先在IAM给予该用户足够的权限，再在概览页签进行IAM用户同步” 安全集群使提交作业时，未进行IAM用户同步，会出现“当前用户在MRS Manager不存在，请先在IAM给予该用户足够的权限，再在概览页签进行IAM用户同步”错误。需要在提交作业之前，先在集群详情页的“概览”页签，单击“IAM用户同步”右侧的“同步”进行IAM用户同步，然后再提交作业。父主题：作业开发类

MapReduce服务 MRS 作业开发类
MapReduce服务 MRS-MRS集群安装的Python版本是多少？

MRS集群安装的Python版本是多少？以root用户登录任意一个Master节点，然后执行Python3即可获取MRS集群安装的python版本。表1 MRS集群安装的Python版本 MRS集群版本 Python版本 MRS 3.1.0 Python 3.8.0 MRS 3.0.5 Python 3.7.0 MRS 3.0.2 Python 3.7.0 MRS 2.1.1 Python 3.6.8 MRS 2.1.0 Python 3.6.8 MRS 1.9.3 Python 3.6.8 父主题：集群管理类

MapReduce服务 MRS
MapReduce服务 MRS-如何重置Kafka数据？

如何重置Kafka数据？删除Kafka topic信息即重置Kafka数据，具体命令请参考：删除topic：kafka-topics.sh --delete --zookeeper ZooKeeper集群业务IP:2181/kafka --topic topicname 查询所有topic：kafka-topics.sh --zookeeper ZooKeeper集群业务IP:2181/kafka --list 执行删除命令后topic数据为空则此topic会立刻被删除，如果有数据则会标记删除，后续Kafka会自行进行实际删除。父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-开启Kerberos认证的集群如何访问Hive？

开启Kerberos认证的集群如何访问Hive？用root用户登录集群Master节点。配置环境变量。 source /opt/client/bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建Hive表的权限，具体请参见配置Hive权限配置拥有对应权限的角色，并为用户绑定对应角色。 kinit MRS集群用户例如，kinit hiveuser 执行Hive组件的客户端命令。 beeline 在beeline中运行Hive命令，例如： create table test_obs(a int, b string) row format delimited fields terminated by "," stored as textfile location "obs://test_obs"; 使用“Ctrl + C”退出hive beeline。父主题： Kerberos使用

MapReduce服务 MRS Kerberos使用
MapReduce服务 MRS-如何通过happybase连接到MRS服务的HBase？

如何通过happybase连接到MRS服务的HBase？ MRS服务集群的HBase服务使用的是thriftserver2，thriftserver1和thriftserver2不能同时并存，但happybase只能通过thriftserver1接口连接到HBase，故建议客户使用python直接连接到HBase，具体实现请参考demohttps://github.com/huaweicloud/huaweicloud-mrs-example/blob/mrs-1.8/src/hbase-examples/hbase-python-example/DemoClient.py。父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-如何配置knox内存？

如何配置knox内存？以root用户登录集群Master节点。在Master节点执行如下命令打开gateway.sh文件。 su omm vim /opt/knox/bin/gateway.sh 将“APP_MEM_OPTS=""” 修改为 “APP_MEM_OPTS="-Xms256m -Xmx768m"” 保存并退出文件。在Master节点执行如下命令重启knox进程。 sh /opt/knox/bin/gateway.sh stop sh /opt/knox/bin/gateway.sh start 在其他Master节点上重复执行如上步骤。执行ps -ef |grep knox命令可查看已设置的内存信息。图1 knox内存父主题：集群管理类

MapReduce服务 MRS
MapReduce服务 MRS-MRS如何连接spark-shell

MRS如何连接spark-shell 用root用户登录集群Master节点。配置环境变量。 source 客户端安装目录/bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS集群用户例如：开发用户为“机机”用户时请执行：kinit -kt user.keytab sparkuser 开发用户为“人机”用户时请执行：kinit sparkuser 执行如下命令连接Spark组件的客户端。 spark-shell 父主题：大数据业务开发

MapReduce服务 MRS
MapReduce服务 MRS-MRS如何连接spark-beeline

MRS如何连接spark-beeline 用root用户登录集群Master节点。配置环境变量。 source 客户端安装目录/bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS集群用户例如：开发用户为“机机”用户时请执行：kinit -kt user.keytab sparkuser 开发用户为“人机”用户时请执行：kinit sparkuser 执行如下命令连接Spark组件的客户端。 spark-beeline 在spark-beeline中执行命令，例如在obs://mrs-word001/table/目录中创建表test。 create table test(id int) location 'obs://mrs-word001/table/'; 执行如下命令查询所有表，返回结果中存在表test，即表示访问OBS成功。 show tables; 图1 Spark验证返回已创建的表名使用“Ctrl + C”退出spark beeline。父主题：大数据业务开发

MapReduce服务 MRS 大数据业务开发
MapReduce服务 MRS-MRS sudo log能否清理？

MRS sudo log能否清理？ MRS sudo log文件是omm用户的操作记录，是为了方便问题的定位，可以清理。因为日志占用了一部分存储空间，建议客户可以清除比较久远的操作日志释放资源空间。日志文件较大，可以将此文件目录添加到/etc/logrotate.d/syslog中，让系统做日志老化，定时清理久远的日志。方法：更改文件日志目录：sed -i '3 a/var/log/sudo/sudo.log' /etc/logrotate.d/syslog 可以根据日志个数和大小进行设置/etc/logrotate.d/syslog，超过设置的日志会自动删除掉。一般默认按照存档大小和个数进行老化的，可以通过size和rotate分别是日志大小限制和个数限制，默认没有时间周期的限制，如需进行周期设置可以增加daily/weekly/monthly指定清理日志的周期为每天/每周/每月。父主题：产品咨询类

MapReduce服务 MRS
数据治理中心 DataArts Studio-查询连接详情（待下线）:响应示例

响应示例成功响应 HTTP状态码 200 { "name":"connection1", "type":"DWS", "config":{ "clusterName":"test", "userName":"dbadmin", "password":"*********", "kmsKey":"cdm-dlf", "agentName":"cdm-donotdelete", "sslEnable":false }} 失败响应 HTTP状态码 400 { "error_code":"DLF.6322", "error_msg":"The data connection does not exist."}

数据治理中心 DataArts Studio

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线