华为云用户手册

  • 注意事项 因为安全组的默认规则是在出方向上的数据报文全部放行,同一个安全组内的弹性云服务器和华为云关系型数据库实例可互相访问。安全组创建后,您可以在安全组中定义各种访问规则,当华为云关系型数据库实例加入该安全组后,即受到这些访问规则的保护。 默认情况下,一个用户可以创建100个安全组。 默认情况下,一个安全组最多只允许拥有50条安全组规则。 目前一个RDS实例允许绑定多个安全组。 为一个安全组设置过多的安全组规则会增加首包延时,因此,建议一个安全组内的安全组规则不超过50条。 当需要从安全组外访问安全组内的华为云关系型数据库实例时,需要为安全组添加相应的入方向规则。 为了保证数据及实例安全,请合理使用权限。建议使用最小权限访问,并及时修改数据库默认端口号(1433),同时将可访问IP地址设置为远程主机地址或远程主机所在的最小子网地址,限制远程主机的访问范围。 源地址默认的IP地址0.0.0.0/0是指允许所有IP地址访问安全组内的华为云关系型数据库实例。 关于添加安全组规则的详细要求,可参考《虚拟私有云用户指南》的“添加安全组规则”章节。
  • 操作场景 安全组是一个逻辑上的分组,为同一个虚拟私有云内具有相同安全保护需求,并相互信任的弹性云服务器和华为云关系型数据库实例提供访问策略。 为了保障数据库的安全性和稳定性,在使用华为云关系型数据库实例之前,您需要设置安全组,开通需访问数据库的IP地址和端口。 内网连接RDS实例时,设置安全组分为以下两种情况: ECS与RDS实例在相同安全组时,默认ECS与RDS实例互通,无需设置安全组规则,执行通过内网连接RDS for SQL Server实例。 ECS与RDS实例在不同安全组时,需要为RDS和ECS分别设置安全组规则。 设置RDS安全组规则:为RDS所在安全组配置相应的入方向规则。 设置ECS安全组规则:安全组默认规则为出方向上数据报文全部放行,此时,无需对ECS配置安全组规则。当在ECS所在安全组为非默认安全组且出方向规则非全放通时,需要为ECS所在安全组配置相应的出方向规则。 本节主要介绍如何为RDS实例设置相应的入方向规则。 关于添加安全组规则的详细要求,可参考《虚拟私有云用户指南》的“添加安全组规则”章节。
  • 实例连接方式介绍 云数据库RDS服务提供使用内网和公网的连接方式。 表1 RDS连接方式 连接方式 IP地址 使用场景 说明 DAS连接 无需使用IP地址,通过控制台方式登陆 通过数据管理服务(Data Admin Service,简称DAS)这款可视化专业数据库管理工具,可获得执行SQL,高级数据库管理,智能化运维等功能,做到易用、安全、智能地管理数据库。云数据库RDS服务默认开通DAS连接权限。 易用、安全、高级、智能 推荐使用DAS连接。 内网连接 内网IP地址 系统默认提供内网IP地址。 当应用部署在弹性云服务器上,且该弹性云服务器与云数据库RDS实例处于同一区域,同一VPC时,建议单独使用内网IP连接弹性云服务器与云数据库RDS实例。 安全性高,可实现RDS的较好性能。 推荐使用内网连接。 公网连接 弹性公网IP 不能通过内网IP地址访问RDS实例时,使用公网访问,建议单独绑定弹性公网IP连接弹性云服务器(或公网主机)与云数据库RDS实例。 安全性低。 为了获得更快的传输速率和更高的安全性,建议您将应用迁移到与您的RDS实例在同一VPC内,使用内网连接。 用户需要购买弹性公网IP,请参见弹性公网IP计费说明。 VPC:虚拟私有云(Virtual Private Cloud,简称VPC)。 ECS:弹性云服务器(Elastic Cloud Server,简称ECS)。 若弹性云服务器和云数据库RDS实例处于同一个VPC内,则无需申请外网地址。 其中,通过内网和公网的连接方式如图1所示。 图1 实例内网和公网连接 父主题: 步骤二:连接实例
  • 步骤3:连接RDS for MariaDB实例 本地使用Linux远程连接工具(以MobaXterm为例)登录ECS。“Remote host”为ECS绑定的弹性公网IP。 图12 新建会话 输入创建ECS时设置的密码。 图13 输入密码 打开链接,按照官方文档指导安装MariaDB客户端。 连接RDS for MariaDB实例。 mysql -h ip -P 3306 -u root -p 图14 连接成功 常用建库、建表操作。 图15 建库 图16 建表
  • Hive版本之间是否兼容? Hive 3.1版本与Hive 1.2版本相比不兼容内容如下: 字段类型约束:Hive 3.1不支持String转成int UDF不兼容:Hive 3.1版本UDF内的Date类型改为Hive内置 索引功能废弃 时间函数问题:Hive 3.1版本为UTC时间,Hive 1.2版本为当地时区时间 驱动不兼容:Hive 3.1和Hive 1.2版本的jdbc驱动不兼容 Hive 3.1对ORC文件列名大小写,下划线敏感 Hive 3.1版本列中不能有名为time的列 父主题: 产品咨询类
  • Impala与其他组件有什么关系? Impala与HDFS间的关系 Impala默认利用HDFS作为其文件存储系统。Impala通过解析和计算处理结构化的数据,Hadoop HDFS则为Impala提供了高可靠性的底层存储支持。使用Impala将无需移动HDFS中的数据并且提供更快的访问。 Impala与Hive间的关系 Impala使用Hive的元数据、ODBC驱动程序和SQL语法。与Hive不同,Impala不基于MapReduce算法,它实现了一个基于守护进程的分布式架构,它负责在同一台机器上运行的查询执行的所有方面。因此,它减少了使用MapReduce的延迟,这使Impala比Hive快。 Impala与MapReduce间的关系 无 Impala与Spark间的关系 无 Impala与Kudu间的关系 Kudu与Impala紧密集成,替代Impala+HDFS+Parquet组合。允许使用Impala的SQL语法从Kudu tablets插入、查询、更新和删除数据。此外,还可以用 JDBC或ODBC,Impala作为代理连接Kudu进行数据操作。 Impala与HBase间的关系 默认的Impala表使用存储在HDFS上的数据文件,这对于使用全表扫描的批量加载和查询是理想的。但是,HBase可以提供对OLTP样式组织的数据的便捷高效查询。 父主题: 产品咨询类
  • HDFS常用端口 表中涉及端口的协议类型均为:TCP。 配置参数 开源默认端口 定制默认端口 端口说明 dfs.namenode.rpc.port 9820(MRS 3.x之前版本) 8020(MRS 3.x及之后版本) 25000 NameNode RPC 端口。 该端口用于: 1. HDFS客户端与Namenode间的通信。 2. Datanode与NameNode之间的连接。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.namenode.http.port 9870 25002 HDFS HTTP端口(NameNode)。 该端口用于: 1. 点对点的NameNode检查点操作。 2. 远程Web客户端连接NameNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.namenode.https.port 9871 25003 HDFS HTTPS端口(NameNode)。 该端口用于: 1. 点对点的NameNode检查点操作。 2. 远程Web客户端连接NameNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.ipc.port 9867 25008 Datanode IPC 服务器端口。 该端口用于: 客户端连接DataNode用来执行RPC操作。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.port 9866 25009 Datanode数据传输端口。 该端口用于: 1. HDFS客户端从DataNode传输数据或传输数据到DataNode。 2. 点对点的Datanode传输数据。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.http.port 9864 25010 Datanode HTTP端口。 该端口用于: 安全模式下,远程Web客户端连接DataNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.datanode.https.port 9865 25011 Datanode HTTPS端口。 该端口用于: 安全模式下,远程Web客户端连接DataNode UI。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.JournalNode.rpc.port 8485 25012 JournalNode RPC端口。 该端口用于: 客户端通信用于访问多种信息。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.journalnode.http.port 8480 25013 JournalNode HTTP端口。 该端口用于: 安全模式下,远程Web客户端链接JournalNode。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 dfs.journalnode.https.port 8481 25014 JournalNode HTTPS端口。 该端口用于: 安全模式下,远程Web客户端链接JournalNode。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是 httpfs.http.port 14000 25018 HttpFS HTTP服务器侦听的端口。 该端口用于: 远程REST接口连接HttpFS。 说明: 端口的取值范围为一个建议值,由产品自己指定。在代码中未做端口范围限制。 安装时是否缺省启用:是 安全加固后是否启用:是
  • 原因分析 从Spark 2.3版本开始,推荐使用新参数spark.executor.memoryOverhead设置executor的overhead内存大小,如果任务两个参数都设置,则spark.yarn.executor.memoryOverhead的值不生效,以spark.executor.memoryOverhead的值为最终值。 同样的参数还有driver的overhead内存设置:spark.driver.memoryOverhead
  • MRS支持什么类型的分布式存储? 提供目前主流的Hadoop,目前支持Hadoop 3.1.x版本,并且随社区更新版本。MRS支持的组件版本请参考表1。 更多信息请参见MRS组件版本一览表。 表1 MRS组件版本信息 MRS支持的组件 MRS 1.9.2(适用于MRS 1.9.x) MRS 3.1.0 Alluxio 2.0.1 - CarbonData 1.6.1 2.0.1 ClickHouse - 21.3.4.25 DBService 1.0.0 2.7.0 Flink 1.7.0 1.12.0 Flume 1.6.0 1.9.0 HBase 1.3.1 2.2.3 HDFS 2.8.3 3.1.1 Hive 2.3.3 3.1.0 Hudi - 0.7.0 Hue 3.11.0 4.7.0 Impala - 3.4.0 Kafka 1.1.0 2.11-2.4.0 KafkaManager 1.3.3.1 - KrbServer 1.15.2 1.17 Kudu - 1.12.1 LdapServer 1.0.0 2.7.0 Loader 2.0.0 - MapReduce 2.8.3 3.1.1 Oozie - 5.1.0 Opentsdb 2.3.0 - Presto 0.216 333 Phoenix(集成在HBase中) - 5.0.0 Ranger 1.0.1 2.0.0 Spark 2.2.2 - Spark2x - 2.4.5 Sqoop - 1.4.7 Storm 1.2.1 - Tez 0.9.1 0.9.2 YARN 2.8.3 3.1.1 ZooKeeper 3.5.1 3.5.6 MRS Manager 1.9.2 - FusionInsight Manager - 8.1.0 父主题: 产品咨询类
  • 什么是区域和可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • HDFS如何进行数据均衡? 登录集群的Master节点,并执行以下命令配置环境变量。其中“/opt/client”为客户端安装目录,具体以实际为准。 source /opt/client/bigdata_env kinit 组件业务用户 (如果集群已开启kerberos认证,则执行该命令进行用户认证。未开启kerberos认证的集群无需执行该命令。) 执行如下命令启动balancer。 /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 5 查看日志。 balance任务执行时会在客户端安装目录“/opt/client/HDFS/hadoop/logs”目录下生成名为hadoop-root-balancer-主机名.log日志。 (可选)若不想再进行数据均衡,可执行如下命令停止balancer。 source /opt/client/bigdata_env kinit 组件业务用户 (如果集群已开启kerberos认证,则执行该命令进行用户认证。未开启kerberos认证的集群无需执行该命令。) /opt/client/HDFS/hadoop/sbin/stop-balancer.sh -threshold 5 父主题: 大数据业务开发
  • MRS的Storm集群提交任务时如何指定日志路径? 客户可以根据自己的需求,修改MRS的流式Core节点上的/opt/Bigdata/MRS_XXX /1_XX _Supervisor/etc/worker.xml文件,将标签filename的值设定为客户需要的路径,然后在Manager页面重启对应实例。 建议客户尽量不要修改MRS默认的日志配置,可能会造成日志系统异常。 父主题: 大数据业务开发
  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,同一个国家各个区域间区别不大,如果您或者您的目标用户在同一个国家,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“中国-香港”、“亚太-曼谷”或“亚太-新加坡”区域。 在非洲地区有业务的用户,可以选择“南非-约翰内斯堡”区域。 在欧洲地区有业务的用户,可以选择“欧洲-巴黎”区域。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。
  • 如何自定义配置MRS服务策略? 在IAM控制台,单击左侧导航栏的“权限”,在右上角选择“创建自定义策略”。 策略名称:自定义策略的名称。 作用范围:根据服务的属性填写,MRS为项目级服务,选择“项目级服务”。 策略配置方式。 可视化视图:通过可视化视图创建自定义策略,无需了解JSON语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图:通过JSON视图创建自定义策略,可以在选择策略模板后,根据具体需求编辑策略内容;也可以直接在编辑框内编写JSON格式的策略内容。 也可以从“策略内容”区域,单击“从已有策略复制”选择已有策略作为模板进行修改。 输入“策略描述”(可选)。 单击“确定”,自定义策略创建完成。 将新创建的自定义策略授予用户组,使得用户组中的用户具备自定义策略中的权限。 详细操作请参考创建自定义策略。 父主题: 帐号权限类
  • 处理步骤 用户子帐号同时添加了MRS ReadOnlyAccess、MRS FullAccess权限,由于权限优先级的问题导致了当前在控制台界面无法添加作业。 当IAM子帐号所在组同时有MRS FullAccess、MRS ReadOnlyAccess、MRS Administrator三种权限。其中MRS FullAccess、MRS ReadOnlyAccess是细粒度的权限。MRS Administrator是RBAC策略。细粒度的权限优先于RBAC策略。当同时配置时就先看细粒度权限。细粒度权限又有deny优先原则,所以最终MRS ReadOnlyAccess起了作用,这个权限具有只读权限。所以会提示子帐号没权限。 将MRS ReadOnlyAccess权限策略删除,退出重新登录,问题解决。
  • 查询密码有效期 查询组件运行用户(人机用户、机机用户)密码有效期: 以客户端安装用户,登录安装了客户端的节点。 执行以下命令,切换到客户端目录,例如“/opt/Bigdata/client”。 cd /opt/Bigdata/client 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,输入kadmin/admin用户密码后进入kadmin控制台。 kadmin -p kadmin/admin kadmin/admin的默认密码为“Admin@123”,首次登录后需修改密码,请按照提示修改并妥善保存。 执行如下命令,可以查看用户的信息。 getprinc 系统内部用户名 例如:getprinc user1 kadmin: getprinc user1......Expiration date: [never]Last password change: Sun Oct 09 15:29:54 CST 2022Password expiration date: [never]...... 查询操作系统用户密码有效期: 以root用户登录集群任一Master节点。 执行以下命令查看用户密码有效期(“Password expires”参数值)。 chage -l 用户名 例如查看root用户密码有效期,则执行chage -l root,执行后结果如下: [root@xxx ~]#chage -l rootLast password change : Sep 12, 2021Password expires : neverPassword inactive : neverAccount expires : neverMinimum number of days between password change : 0Maximum number of days between password change : 99999Number of days of warning before password expires : 7
  • 原因分析 按照设定,任务应该只扫描b=xxx的分区,但是查看任务日志可以发现,实际上任务却扫描了所有的分区再来计算b=xxx的数据,因此任务计算的很慢。并且因为需要扫描所有文件,会有大量的OBS请求发送。 MRS默认开启基于分区统计信息的执行计划优化,相当于自动执行Analyze Table(默认开启的设置方法为spark.sql.statistics.fallBackToHdfs=true,可通过配置为false关闭)。开启后,SQL执行过程中会扫描表的分区统计信息,并作为执行计划中的代价估算,例如对于代价评估中识别的小表,会广播小表放在内存中广播到各个节点上,进行join操作,大大节省shuffle时间。 此开关对于Join场景有较大的性能优化,但是会带来OBS调用量的增加。
  • 如何在ECS服务器上用PySpark连接内网开启Kerberos认证的MRS Spark集群? 将Spark的spark-defaults.conf文件中“spark.yarn.security.credentials.hbase.enabled”修改为“true”,然后使用spark-submit --master yarn --keytab keytabfile --principal principal指定Kerberos认证文件。 父主题: 周边生态对接使用
  • 操作步骤 在为集群Manager绑定了EIP后,通常不建议用户进行解绑,以免影响其他用户正常访问集群的Manager管理界面。 如需解绑,可通过调用EIP服务的相关API接口进行解绑: 登录EIP管理控制台,在EIP列表中查看并记录需要解绑的公网IP地址对应的ID信息。 参考解绑弹性公网IP接口说明,在API Explorer中解绑EIP。 例如使用当前用户登录API Explorer后,根据实际情况选择Region信息,设置“project_id”为当前Region的项目ID信息、“publicip_id”为1查询到的待解绑EIP的ID。 接口调用成功后,登录EIP管理控制台,在EIP列表中可查看到当前EIP已变为未绑定状态。 登录MRS管理控制台,进入集群概览页面后,可为MRS集群重新绑定其他EIP。
  • MRS管理控制台和集群Manager页面区别与联系 用户可以通过MRS管理控制台页面登录到MRS的Manager页面。 Manager分为MRS Manager和FusionInsight Manager,其中: MRS 2.x及之前版本集群的Manager界面称为MRS Manager。 MRS 3.x及之后版本集群的Manager界面称为FusionInsight Manager。 管理控制台与FusionInsight Manager页面的区别和联系请参考下表: 常用操作 MRS Console FusionInsight Manager 切换子网、添加安全组规则、OBS权限控制、管理委托、IAM用户同步 支持 不支持 新增节点组、扩容、缩容、升级规格 支持 不支持 隔离主机、启动所有角色、停止所有角色 支持 支持 下载客户端、启动服务、停止服务、滚动重启服务 支持 支持 查看服务实例状态、参数配置、同步配置 支持 支持 查看清除告警、查看事件 支持 支持 查看告警帮助 不支持 支持 阈值设置 不支持 支持 添加消息订阅规格 支持 不支持 文件管理 支持 不支持 作业管理 支持 不支持 租户管理 支持 支持 标签管理 支持 不支持 权限(添加删除用户、用户组、角色、修改密码) 不支持 支持 备份恢复 不支持 支持 审计 不支持 支持 资源监控、日志 支持 支持 父主题: 产品咨询类
  • 解决步骤 通过root用户登录Master1或Master2其中任意一节点,执行以下命令切换到omm用户。 su - omm 执行以下命令,修改“catalina.sh”脚本,搜索“JAVA_OPTS” ,找到类似如下的配置JAVA_OPTS=“-Xms1024m -Xmx4096m”,将其修改为需要的值大小,保存修改。 vim /opt/executor/bin/catalina.sh 重启manager-executor进程,该进程在Master1和Master2节点上为主备部署,同一时刻只有一个节点上运行该进程,首先确认节点上是否有该进程,如果有该进程则进行重启操作。 分别登录Master1节点和Master2节点,执行以下命令确认当前节点是否存在该进程。当有输出时则进程存在。 ps -ef | grep "/opt/executor" | grep -v grep 重启命令如下。 sh /opt/executor/bin/shutdown.shsh /opt/executor/bin/startup.sh
  • 解决方法 调大launcher-job的heap size值。 使用omm用户登录主OMS节点。 修改“/opt/executor/webapps/executor/WEB-INF/classes/servicebroker.xml”中参数“job.launcher.resource.memory.mb”的值为“2048”。 使用sh /opt/executor/bin/restart-executor.sh重启executor进程。
  • MRS如何收费? MRS支持按需购买集群节点和包年/包月购买集群节点,具体的计费详情可通过价格计算器查询。 包年/包月:根据集群购买时长,一次性支付集群费用。最短时长为1个月,最长时长为1年。 按需付费:节点按实际使用时长计费,计费周期为一小时。 目前除了“启动中”、“失败”和“已删除”状态的集群不收费,其他状态的集群都需要收费。 此处费用只是购买集群所需费用,MRS上的数据存储、带宽和流量另外计费。 父主题: 计费相关
  • 访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI界面报错,或部分功能不可用 访问HDFS、Hue、Yarn、Flink、HetuEngine等组件的WebUI的用户不具备对应组件的管理权限,导致界面报错或部分功能不可用,例如: 使用当前用户登录Flink WebUI后,部分内容不能正常显示,且没有权限创建应用、创建集群连接、创建数据连接等: 使用当前用户访问HDFS WebUI报错:Failed to retrieve data from /jmx?qry=java.lang:type=Memory, cause: Forbidden 使用当前用户访问Yarn WebUI界面,无法查看作业信息: 使用当前用户登录Hue WebUI后,在界面左侧导航栏单击 ,选择“Workflow”后报错: 建议使用新建的具有对于组件管理权限的用户访问,此时可以参考创建用户章节,创建一个业务用户,例如创建一个具有HDFS管理权限的用户登录并访问HDFS WebUI界面。 父主题: Web页面访问类
  • 如何查看各组件配置文件路径? 常用组件配置文件路径如下所示: 组件 配置文件目录 ClickHouse 客户端安装路径/ClickHouse/clickhouse/config Flink 客户端安装路径/Flink/flink/conf Flume Flume客户端安装目录/fusioninsight-flume-xxx/conf HBase 客户端安装路径/HBase/hbase/conf HDFS 客户端安装路径/HDFS/hadoop/etc/hadoop Hive 客户端安装路径/Hive/config Hudi 客户端安装路径/Hudi/hudi/conf Kafka 客户端安装路径/Kafka/kafka/config Loader 客户端安装路径/Loader/loader-tools-xxx/loader-tool/conf 客户端安装路径/Loader/loader-tools-xxx/schedule-tool/conf 客户端安装路径/Loader/loader-tools-xxx/shell-client/conf 客户端安装路径/Loader/loader-tools-xxx/sqoop-shell/conf Oozie 客户端安装路径/Oozie/oozie-client-xxx/conf Spark2x 客户端安装路径/Spark2x/spark/conf Yarn 客户端安装路径/Yarn/config ZooKeeper 客户端安装路径/Zookeeper/zookeeper/conf 父主题: 集群管理类
  • 如何使用MRS? MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。 MRS使用简单,通过使用在集群中连接在一起的多台计算机,您可以运行各种任务,处理或者存储(PB级)巨量数据。MRS的基本使用流程如下: 开发数据处理程序,MRS的开发指南为用户提供代码示例和教程,帮助您快速开始开发自己的程序并正常运行。 上传程序和数据文件到对象存储服务(OBS)中,用户需要先将本地的程序和数据文件上传至OBS中。 创建集群,用户可以指定集群类型用于离线数据分析和流处理任务,指定集群中预置的弹性云服务器实例规格、实例数量、数据盘类型(普通IO、高 IO、超高 IO)、要安装的组件(Hadoop、Spark、HBase、Hive、Kafka、Storm等)。用户可以使用引导操作在集群启动前(或后)在指定的节点上执行脚本,安装其他第三方软件或修改集群运行环境等自定义操作。 管理作业,MRS为用户提供程序执行平台,程序由用户自身开发,MRS负责程序的提交、执行和监控。 管理集群,MRS为用户提供企业级的大数据集群的统一管理平台,帮助用户快速掌握服务及主机的健康状态,通过图形化的指标监控及定制及时的获取系统的关键信息,根据实际业务的性能需求修改服务属性的配置,对集群、服务、角色实例等实现一键启停等操作。 删除集群,如果作业执行结束后不需要集群,可以删除MRS集群。集群删除后不再产生费用。 父主题: 产品咨询类
  • Hive与其他组件有什么关系? Hive与HDFS间的关系 Hive是Apache的Hadoop项目的子项目,Hive利用HDFS作为其文件存储系统。Hive通过解析和计算处理结构化的数据,Hadoop HDFS则为Hive提供了高可靠性的底层存储支持。Hive数据库中的所有数据文件都可以存储在Hadoop HDFS文件系统上,Hive所有的数据操作也都是通过Hadoop HDFS接口进行。 Hive与MapReduce间的关系 Hive所有的数据计算都依赖于MapReduce。MapReduce也是Apache的Hadoop项目的子项目,它是一个基于Hadoop HDFS分布式并行计算框架。Hive进行数据分析时,会将用户提交的HiveQL语句解析成相应的MapReduce任务并提交MapReduce执行。 Hive与DBService间的关系 Hive的MetaStore(元数据服务)处理Hive的数据库、表、分区等的结构和属性信息,这些信息需要存放在一个关系型数据库中,由MetaStore维护和处理。在MRS中,这个关系型数据库由DBService组件维护。 Hive与Spark间的关系 Hive的数据计算也可以运行在Spark上。Spark也是Apache的一个项目,它是基于内存的分布式计算框架。Hive进行数据分析时,会将用户提交的HiveQL语句解析成相应的Spark任务并提交Spark执行。 父主题: 产品咨询类
  • Spark作业Client模式和Cluster模式的区别 理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念:Application Master。 在YARN中,每个Application实例都有一个ApplicationMaster进程,它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源,获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YARN-Cluster和YARN-Client模式的区别其实就是ApplicationMaster进程的区别。 YARN-Cluster模式下,Driver运行在AM(Application Master)中,它负责向YARN申请资源,并监督作业的运行状况。当用户提交了作业之后,就可以关掉Client,作业会继续在YARN上运行,因而YARN-Cluster模式不适合运行交互类型的作业。 YARN-Client模式下,Application Master仅仅向YARN请求Executor,Client会和请求的Container通信来调度工作,也就是说Client不能离开。 父主题: 作业开发类
  • 如何使用组件客户端? 以root用户登录任意一个Master节点。 执行su - omm命令,切换到omm用户。 执行cd 客户端安装目录,切换到客户端。 执行source bigdata_env命令,配置环境变量。 如果当前集群已启用Kerberos认证,执行kinit 组件业务用户认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 环境变量配置成功后,即可执行组件的客户端命令。例如查看组件的相关信息,可执行HDFS客户端命令hdfs dfs -ls /查看HDFS根目录文件。 父主题: 客户端使用类
  • 如何查看集群配置信息? 集群创建完成后在MRS控制台单击集群名称进入集群基本信息页面,可以查看到集群的基本配置信息,包括集群的名称、ID、付费类型、工作地域、创建时间、Hadoop组件版本及节点的实例规格、容量。其中,节点的实例规格和容量决定了该集群对数据的分析处理能力。节点实例规格越高,容量越大,集群运行速度越快,分析处理能力越强,相应的成本也越高。 在基本信息页面,单击“前往Manager”,跳转至MRS集群管理页面。用户可在集群管理页面查看和处理告警信息、修改集群配置等。 父主题: 集群管理类
共100000条