华为云用户手册

  • MRS是否支持变更MRS集群节点? MRS管理控制台不支持变更集群节点,也不建议用户在ECS管理控制台直接修改MRS集群节点。如果手动在ECS管理控制台对集群节点执行停止ECS、删除ECS、修改或重装ECS操作系统,以及修改ECS规格的操作,可能影响集群稳定运行。 如果您对MRS集群节点进行了上述操作,MRS会自动识别并直接删除发生变更的集群节点。您可以登录MRS管理控制台,通过扩容恢复已经删除的节点。请勿在扩容过程中对正在扩容的节点进行操作。 父主题: 集群管理类
  • MRS集群版本对应的操作系统是什么? 不同版本的集群对应的主机操作系统不同,具体对应关系如表1所示。 表1 MRS集群版本与主机操作系统对应关系 MRS集群版本 x86计算 鲲鹏计算(ARM) MRS 3.2.0-LTS.1 EulerOS 2.10 EulerOS 2.10 MRS 3.1.5 EulerOS 2.9 EulerOS 2.9 MRS 3.1.2-LTS.3 EulerOS 2.9 EulerOS 2.9 MRS 3.1.0 EulerOS 2.5 EulerOS 2.8 MRS 1.9.2 EulerOS 2.2 EulerOS 2.8 父主题: 产品咨询类
  • 如何在MRS集群中安装Kafka,Flume组件? 已经创建的MRS 3.1.0及之前版本集群不支持安装组件。Kafka和Flume为流式集群的组件,如果要安装Kafka和Flume组件,则需要创建流式集群或者混合集群并选择该组件。 MRS 3.1.2-LTS.3及之后版本的自定义类型集群支持添加组件,具体请参见管理服务操作。 Kafka和Flume组件,使用方法请参考使用Kafka、使用Flume。 父主题: 集群管理类
  • 如何修改FlumeClient的日志为标准输出日志? 登录Flume客户端安装节点。 进入Flume客户端安装目录,假设Flume客户端安装路径为“/opt/FlumeClient”,可以执行以下命令。 cd /opt/FlumeClient/fusioninsight-flume-1.9.0/bin 执行./flume-manage.sh stop force命令,停止FlumeClient。 执行vi ../conf/log4j.properties命令,打开log4j.properties文件,修改“flume.root.logger”的取值为“${flume.log.level},console”。 执行./flume-manage.sh start force命令,重启FlumeClient。 修改完成后,请检查docker配置信息是否正确。 父主题: 大数据业务开发
  • Hadoop组件jar包位置和环境变量的位置在哪里? hadoopstreaming.jar位置在/opt/share/hadoop-streaming-*目录下。其中*由Hadoop版本决定。 jdk环境变量:/opt/client/JDK/component_env Hadoop组件的环境变量位置:/opt/client/HDFS/component_env Hadoop客户端路径:/opt/client/HDFS/hadoop 父主题: 大数据业务开发
  • 数据存储在OBS和HDFS有什么区别? MRS集群处理的数据源来源于OBS或HDFS,HDFS是Hadoop分布式文件系统(Hadoop Distributed File System),OBS(Object Storage Service)即对象存储服务,是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于OBS服务 Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。 数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。 数据存储在HDFS:数据存储和计算不分离,集群成本较高,计算性能高,但存储量受磁盘空间限制,删除集群前需将数据导出保存,建议在数据计算频繁场景下使用。 父主题: 产品咨询类
  • MRS是否支持同时运行多个Flume任务? Flume客户端可以包含多个独立的数据流,即在一个配置文件properties.properties中配置多个Source、Channel、Sink。这些组件可以链接以形成多个流。 例如在一个配置中配置两个数据流,示例如下: server.sources = source1 source2server.sinks = sink1 sink2server.channels = channel1 channel2#dataflow1 server.sources.source1.channels = channel1server.sinks.sink1.channel = channel1#dataflow2server.sources.source2.channels = channel2server.sinks.sink2.channel = channel2 父主题: 大数据业务开发
  • Hue连接hiveserver,不释放session,报错over max user connections如何处理? 适用版本:MRS 3.1.0及之前的MRS 3.x版本。 修改两个Hue节点的以下文件: /opt/Bigdata/FusionInsight_Porter_8.*/install/FusionInsight-Hue-*/hue/apps/beeswax/src/beeswax/models.py 修改文件中的396和404行的值 q = self.filter(owner=user, application=application).exclude(guid='').exclude(secret='')改为q = self.filter(owner=user, application=application).exclude(guid=None).exclude(secret=None) 父主题: 大数据业务开发
  • 节点互信异常如何处理? 当Manager报“ALM-12066 节点间互信失效”告警,或者发现节点间无ssh互信时,可参考如下步骤操作。 分别在互信集群的两端节点执行ssh-add -l 确认是否有identities信息。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并kill该进程等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加,请手动ssh确认互信是否正常。 如果有identities信息,需要确认/home/omm/.ssh/authorized_keys中是否有对端节点/home/omm/.ssh/id_rsa.pub文件中的信息,如果没有手动添加对端节点信息。 检查/home/omm/.ssh目录下的文件权限是否正确。 排查日志文件 “/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”, 如果用户把omm的家目录删除了,需要联系MRS支撑人员修复。 父主题: 集群管理类
  • 如何修改Clickhouse服务的allow_drop_detached配置项? 用root用户登录Clickhouse客户端所在节点。 进入客户端目录,配置环境变量。 cd /opt/客户端安装目录 source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit MRS集群用户 该用户必须具有Clickhouse管理员权限。 执行命令clickhouse client --host 192.168.42.90 --secure -m,其中192.168.42.90为ClickHouseServer实例节点IP,执行结果如下: [root@server-2110082001-0017 hadoopclient]# clickhouse client --host 192.168.42.90 --secure -mClickHouse client version 21.3.4.25.Connecting to 192.168.42.90:21427.Connected to ClickHouse server version 21.3.4 revision 54447. 执行命令修改allow_drop_detached的值。 例如:设置allow_drop_detached=1 set allow_drop_detached=1; 执行如下命令查看allow_drop_detached的值: SELECT * FROM system.settings WHERE name = 'allow_drop_detached'; 执行命令q;退出clickhouse client。 父主题: 大数据业务开发
  • 问题现象 ClickHouse会限制group by使用的内存量,在使用ClickHouse客户端执行SQL查询时报如下错误: Progress: 1.83 billion rows, 85.31 GB (68.80 million rows/s., 3.21 GB/s.) 6%Received exception from server:Code: 241. DB::Exception: Received from localhost:9000, 127.0.0.1. DB::Exception: Memory limit (for query) exceeded: would use 9.31 GiB (attempt to allocate chunk of 1048576 bytes), maximum: 9.31 GiB: (while reading column hits):
  • 添加Hive服务后,提交hivesql/hivescript作业失败 该问题是由于提交作业的用户所在用户组绑定的MRS CommonOperations策略权限在同步到Manager中后没有Hive相关权限,处理方法如下: 添加Hive服务完成后。 登录IAM服务控制台,创建一个用户组,该用户组所绑定策略和提交作业用户所在用户组权限相同。 将提交作业的用户添加到新用户组中。 刷新MRS控制台集群详情页面,“IAM用户同步”会显示“未同步”。 单击“IAM用户同步”右侧的“同步”。同步状态在MRS控制台页面选择“操作日志”查看当前用户是否被修改。 是,则可以重新提交hive作业, 否,则检视上述步骤是否全部已执行完成。 是,请联系运维人员处理。 否,请等待执行完成后再提交hive作业。 父主题: 大数据业务开发
  • Hive使用beeline -e执行多条语句报错 MRS 3.x版本Hive使用beeline执行beeline -e " use default;show tables;"报错:Error while compiling statement: FAILED: ParseException line 1:11 missing EOF at ';' near 'default' (state=42000,code=40000)。 处理方法: 方法一:使用beeline --entirelineascommand=false -e "use default;show tables;"。 方法二: 在Hive客户端如/opt/Bigdata/client/Hive目录下修改component_env文件,修改export CLIENT_HIVE_ENTIRELINEASCOMMAND=true为export CLIENT_HIVE_ENTIRELINEASCOMMAND=false。 图1 修改component_env文件 执行如下命令验证配置。 source /opt/Bigdata/client/bigdata_env beeline -e " use default;show tables;" 父主题: 大数据业务开发
  • 解决方法 在执行SQL语句前,执行如下命令。注意执行前保证集群有足够内存可以设置。 SET max_memory_usage = 128000000000; #128G 如果没有上述大小内存可用,ClickHouse可以通过如下设置将“溢出”数据到磁盘。建议将max_memory_usage设置为max_bytes_before_external_group_by大小的两倍。 set max_bytes_before_external_group_by=20000000000; #20Gset max_memory_usage=40000000000; #40G 如果客户数据量大,而且是全表查询,建议按照分区进行查询或者进行升级集群core节点的规格。
  • 开启Kerberos认证的集群如何访问Spark? 用root用户登录集群Master节点。 配置环境变量。 source /opt/client/bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。 kinit MRS集群用户 例如: 开发用户为“机机”用户时执行:kinit -kt user.keytab sparkuser 开发用户为“人机”用户时执行:kinit sparkuser 执行如下命令连接Spark组件客户端。 spark-beeline 在spark-beeline中执行命令,例如在obs://mrs-word001/table/目录中创建表test。 create table test(id int) location 'obs://mrs-word001/table/'; 执行如下命令查询所有表,返回结果中存在表test,即表示访问OBS成功。 show tables; 图1 Spark验证返回已创建的表名 使用“Ctrl + C ”退出spark beeline。 父主题: Kerberos使用
  • 如何修改HDFS主备倒换类? 当MRS 3.x版本集群使用HDFS连接NameNode报类org.apache.hadoop.hdfs.server.namenode.ha.AdaptiveFailoverProxyProvider无法找到时,是由于MRS 3.x版本集群HDFS的主备倒换类默认为该类,可通过如下方式解决。 方式一:添加hadoop-plugins-xxx.jar到程序的classpath或者lib目录中。 hadoop-plugins-xxx.jar包一般在HDFS客户端目录下:$HADOOP_HOME/share/hadoop/common/lib/hadoop-plugins-8.0.2-302023.jar 方式二:将HDFS的如下配置项修改为开源类: dfs.client.failover.proxy.provider.hacluster=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider 父主题: 大数据业务开发
  • LauncherJob作业执行结果为Failed. 报错信息为:jobPropertiesMap is null. launcher作业失败的原因为:提交作业用户无“hdfs /mrs/job-properties”目录的写权限。 该问题在2.1.0.6的补丁中修复,也可通过在MRS Manager页面给同步的提交作业用户赋予该目录“/mrs/job-properties”的写入权限。 父主题: 作业开发类
  • 提交长时作业SparkStreaming,运行几十个小时后失败,报OBS访问403 当用户提交作业需要读写OBS时,提交作业程序会默认为用户添加访问OBS的临时accesskey和secretkey,但是临时accesskey和secretkey有过期时间。 如果需要运行像Flink和SparkStreaming这样的长时作业时,用户可通过“服务配置参数”选项框传入永久的accesskey和secretkey,以保证作业不会在运行过程中因密钥过期而执行失败。 父主题: 作业开发类
  • MRS Console页面Flink作业状态与Yarn上的作业状态不一致 为了节约存储空间,用户修改了Yarn的配置项yarn.resourcemanager.max-completed-applications,减小yarn上历史作业的记录保存个数。由于Flink是长时作业,在yarn上realJob还在运行,但launcherJob已经被删除,导致因从Yarn上查不到launcherJob,从而更新作业状态失败。该问题在2.1.0.6补丁中解决。 规避方法:终止找不到launcherJob的作业,后续提交的作业状态就会更新。 父主题: 作业开发类
  • 如何查看MRS作业日志? MRS Console页面作业管理,每一条作业支持查看日志,包含launcherJob日志和realJob日志。 launcherJob作业的日志,一般会在stderr和stdout中打印错误日志,如下图所示: realJob的日志,可以通过MRS Manager中 Yarn服务提供的ResourceManager Web UI查看。 登录集群Master节点,可获取1作业的日志文件 ,具体hdfs路径为“/tmp/logs/{submit_user}/logs/{application_id}”。 提交作业后,在Yarn的WEB UI未找到对应作业的application_id,说明该作业没有提交成功,可登录集群主Master节点,查看提交作业进程日志“/var/log/executor/logs/exe.log”。 父主题: 作业开发类
  • 报错提示“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步” 安全集群使提交作业时,未进行IAM用户同步,会出现“当前用户在MRS Manager不存在,请先在IAM给予该用户足够的权限,再在概览页签进行IAM用户同步”错误。 需要在提交作业之前,先在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步,然后再提交作业。 父主题: 作业开发类
  • MRS集群安装的Python版本是多少? 以root用户登录任意一个Master节点,然后执行Python3即可获取MRS集群安装的python版本。 表1 MRS集群安装的Python版本 MRS集群版本 Python版本 MRS 3.1.0 Python 3.8.0 MRS 3.0.5 Python 3.7.0 MRS 3.0.2 Python 3.7.0 MRS 2.1.1 Python 3.6.8 MRS 2.1.0 Python 3.6.8 MRS 1.9.3 Python 3.6.8 父主题: 集群管理类
  • 如何重置Kafka数据? 删除Kafka topic信息即重置Kafka数据,具体命令请参考: 删除topic:kafka-topics.sh --delete --zookeeper ZooKeeper集群业务IP:2181/kafka --topic topicname 查询所有topic:kafka-topics.sh --zookeeper ZooKeeper集群业务IP:2181/kafka --list 执行删除命令后topic数据为空则此topic会立刻被删除,如果有数据则会标记删除,后续Kafka会自行进行实际删除。 父主题: 大数据业务开发
  • 开启Kerberos认证的集群如何访问Hive? 用root用户登录集群Master节点。 配置环境变量。 source /opt/client/bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建Hive表的权限,具体请参见配置Hive权限配置拥有对应权限的角色,并为用户绑定对应角色。 kinit MRS集群用户 例如,kinit hiveuser 执行Hive组件的客户端命令。 beeline 在beeline中运行Hive命令,例如: create table test_obs(a int, b string) row format delimited fields terminated by "," stored as textfile location "obs://test_obs"; 使用“Ctrl + C”退出hive beeline。 父主题: Kerberos使用
  • 如何通过happybase连接到MRS服务的HBase? MRS服务集群的HBase服务使用的是thriftserver2,thriftserver1和thriftserver2不能同时并存,但happybase只能通过thriftserver1接口连接到HBase,故建议客户使用python直接连接到HBase,具体实现请参考demohttps://github.com/huaweicloud/huaweicloud-mrs-example/blob/mrs-1.8/src/hbase-examples/hbase-python-example/DemoClient.py。 父主题: 大数据业务开发
  • 如何配置knox内存? 以root用户登录集群Master节点。 在Master节点执行如下命令打开gateway.sh文件。 su omm vim /opt/knox/bin/gateway.sh 将“APP_MEM_OPTS=""” 修改为 “APP_MEM_OPTS="-Xms256m -Xmx768m"” 保存并退出文件。 在Master节点执行如下命令重启knox进程。 sh /opt/knox/bin/gateway.sh stop sh /opt/knox/bin/gateway.sh start 在其他Master节点上重复执行如上步骤。 执行ps -ef |grep knox命令可查看已设置的内存信息。 图1 knox内存 父主题: 集群管理类
  • MRS如何连接spark-shell 用root用户登录集群Master节点。 配置环境变量。 source 客户端安装目录/bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit MRS集群用户 例如: 开发用户为“机机”用户时请执行:kinit -kt user.keytab sparkuser 开发用户为“人机”用户时请执行:kinit sparkuser 执行如下命令连接Spark组件的客户端。 spark-shell 父主题: 大数据业务开发
  • MRS如何连接spark-beeline 用root用户登录集群Master节点。 配置环境变量。 source 客户端安装目录/bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit MRS集群用户 例如: 开发用户为“机机”用户时请执行:kinit -kt user.keytab sparkuser 开发用户为“人机”用户时请执行:kinit sparkuser 执行如下命令连接Spark组件的客户端。 spark-beeline 在spark-beeline中执行命令,例如在obs://mrs-word001/table/目录中创建表test。 create table test(id int) location 'obs://mrs-word001/table/'; 执行如下命令查询所有表,返回结果中存在表test,即表示访问OBS成功。 show tables; 图1 Spark验证返回已创建的表名 使用“Ctrl + C”退出spark beeline。 父主题: 大数据业务开发
  • MRS sudo log能否清理? MRS sudo log文件是omm用户的操作记录,是为了方便问题的定位 ,可以清理。因为日志占用了一部分存储空间,建议客户可以清除比较久远的操作日志释放资源空间。 日志文件较大,可以将此文件目录添加到/etc/logrotate.d/syslog中,让系统做日志老化 ,定时清理久远的日志 。 方法:更改文件日志目录:sed -i '3 a/var/log/sudo/sudo.log' /etc/logrotate.d/syslog 可以根据日志个数和大小进行设置/etc/logrotate.d/syslog,超过设置的日志会自动删除掉。一般默认按照存档大小和个数进行老化的,可以通过size和rotate分别是日志大小限制和个数限制,默认没有时间周期的限制,如需进行周期设置可以增加daily/weekly/monthly指定清理日志的周期为每天/每周/每月。 父主题: 产品咨询类
  • 响应示例 成功响应 HTTP状态码 200 { "name":"connection1", "type":"DWS", "config":{ "clusterName":"test", "userName":"dbadmin", "password":"*********", "kmsKey":"cdm-dlf", "agentName":"cdm-donotdelete", "sslEnable":false }} 失败响应 HTTP状态码 400 { "error_code":"DLF.6322", "error_msg":"The data connection does not exist."}
共100000条