华为云用户手册

  • 标准专线计费项 标准专线计费项包括端口占用费用、一次性接入费用、专线租用费用和楼内线租赁费用。其中华为云收费项包括端口占用费用和一次性接入费用;非华为云收费项包括专线租用费用和楼内线租赁费用。 具体内容如表1所示。 表1 云专线计费项 计费项 计费项说明 计费方式 计费公式 端口占用 按端口规格收取资源占用费。 预付费,包年/包月。 端口单价*时长 专线端口价格详细请参见云专线价格详情 一次性接入 暂不收取一次性接入费,如有收取计划,将提前一个月通知。 免费 免费 专线租用 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用。 用户向运营商支付。 以运营商实际要求为准。 楼内线租赁 用户专线进入非华为云物业的专线接入点,一般是中立机房,可能会产生楼内线租赁费用。 用户向中立机房所属物业支付。 以物业实际要求为准。
  • 一站式接入专线计费项 一站式接入专线的计费项包括端口占用费用、一次性接入费用、专线租用费用和楼内线租赁费用,由华为云统一收取。 具体内容如表2所示。 表2 云专线计费项 计费项 计费项说明 计费方式 计费公式 端口占用 按端口规格收取资源占用费。 预付费,包年/包月。 端口单价*时长 专线端口价格详细请参见云专线价格详情 一次性接入 暂不收取一次性接入费,如有收取计划,将提前一个月通知。 免费 免费 专线租用 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用。 用户向华为云统一支付。 - 楼内线租赁 用户专线进入非华为云物业的专线接入点,一般是中立机房,可能会产生楼内线租赁费用。 -
  • 计费样例 如果您公司的数据中心在天津,同时使用了华为云华北区域的资源,希望使用1条电信的MSTP专线实现公司数据中心资源和华为云上的资源互通,带宽预估需要4M,使用时长1年。 以下是预计您的全部费用组成,其中专线租用费、楼内线租赁费参照的市场价格,实际价格和资源需要您向资源提供商协商和购买。 端口租用费:专线带宽是4M,只需要租用1GE的端口即可,1个1GE端口1年费用是7200元。 专线租用费:公司数据中心在天津,华为云华北区域在北京,需要租用1条4M的电信长途MSTP专线,1年费用是101400元 机房进线费:1条专线1年的费用是12000元。 您的全部费用预计是:7200 + 101400 + 12000 = 120600元。
  • 计费项 标准专线计费 标准专线接入华为云的费用包括如下部分: 表1 标准专线接入收费详情 收费方 计费项 说明 计费方式 华为云 端口占用费 按端口规格收取资源占用费。 预付费,包年包月。 一次性接入费 暂不收取一次性接入费,如有收取计划,将提前一个月通知。 - 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 楼内线租赁费 用户专线进入非华为云物业的专线接入点,一般是中立机房,可能会产生楼内线租赁费用。 - 托管专线计费 相比标准物理连接,托管连接是通过合作伙伴已有的共享端口接入,无需向华为云支付专线服务一次性接入费和端口占用费。 托管专线接入华为云产生的费用包括如下部分: 表2 托管专线接入收费详情 收费方 计费项 说明 计费方式 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 云专线费用详情请参见产品价格详情。
  • 云专线的配额是多少? 云专线是由物理连接、虚拟网关和虚拟接口组成,具体配额信息详见下表: 资源 默认配额 如何提升配额 每个帐户每个区域支持物理连接数 10 可以通过提交工单提高此限制。 每个帐户每个区域支持虚拟网关数 5 可以通过提交工单提高此限制。 每个帐户每个区域支持虚拟接口数 50 可以通过提交工单提高此限制。 虚拟接口上边界网关协议 (BGP) 会话的路由数量 100 可以通过提交工单提高此限制。 虚拟接口上远端子网的数量 50 可以通过提交工单提高此限制。 如何查看云专线配额或申请扩大配额详细请参见关于配额。 父主题: 配额类
  • 计费项 标准专线计费 标准专线接入华为云的费用包括如下部分: 表1 标准专线接入收费详情 收费方 计费项 说明 计费方式 华为云 端口占用费 按端口规格收取资源占用费。 预付费,包年包月。 一次性接入费 暂不收取一次性接入费,如有收取计划,将提前一个月通知。 - 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 楼内线租赁费 用户专线进入非华为云物业的专线接入点,一般是中立机房,可能会产生楼内线租赁费用。 - 托管专线计费 相比标准物理连接,托管连接是通过合作伙伴已有的共享端口接入,无需向华为云支付专线服务一次性接入费和端口占用费。 托管专线接入华为云产生的费用包括如下部分: 表2 托管专线接入收费详情 收费方 计费项 说明 计费方式 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 云专线费用详情请参见产品价格详情。
  • 计费样例 如果您公司的数据中心在天津,同时使用了华为云华北区域的资源,希望使用1条电信的MSTP专线实现公司数据中心资源和华为云上的资源互通,带宽预估需要4M,使用时长1年。 以下是预计您的全部费用组成,其中专线租用费、楼内线租赁费参照的市场价格,实际价格和资源需要您向资源提供商协商和购买。 端口租用费:专线带宽是4M,只需要租用1GE的端口即可,1个1GE端口1年费用是7200元。 专线租用费:公司数据中心在天津,华为云华北区域在北京,需要租用1条4M的电信长途MSTP专线,1年费用是101400元 机房进线费:1条专线1年的费用是12000元。 您的全部费用预计是:7200 + 101400 + 12000 = 120600元。
  • 什么是区域、可用区? 区域和可用区用来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。 在除中国大陆以外的亚太地区有业务的用户,可以选择“中国-香港”、“亚太-曼谷”或“亚太-新加坡”区域。 在非洲地区有业务的用户,可以选择“非洲-约翰内斯堡”区域。 在拉丁美洲地区有业务的用户,可以选择“拉美-圣地亚哥”区域。 “拉美-圣地亚哥”区域位于智利。 资源的价格 不同区域的资源价格可能有差异,请参见华为云服务价格详情。
  • 计费项 标准专线计费 标准专线接入华为云的费用包括如下部分: 表1 标准专线接入收费详情 收费方 计费项 说明 计费方式 华为云 端口占用费 按端口规格收取资源占用费。 预付费,包年包月。 一次性接入费 暂不收取一次性接入费,如有收取计划,将提前一个月通知。 - 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 楼内线租赁费 用户专线进入非华为云物业的专线接入点,一般是中立机房,可能会产生楼内线租赁费用。 - 托管专线计费 相比标准物理连接,托管连接是通过合作伙伴已有的共享端口接入,无需向华为云支付专线服务一次性接入费和端口占用费。 托管专线接入华为云产生的费用包括如下部分: 表2 托管专线接入收费详情 收费方 计费项 说明 计费方式 非华为云 专线租用费 用户数据中心与华为云专线接入点之间的运营商专线部署和租赁费用,由用户向运营商购买支付。 - 云专线费用详情请参见产品价格详情。
  • 组成部分 云专线服务主要包括物理连接、虚拟网关、虚拟接口三个组成部分。 物理连接 物理连接是用户本地数据中心与接入点的运营商物理网络的专线连接。物理连接提供两种专线接入方式: 标准专线接入,是用户独占端口资源的物理连接,此种类型的物理连接由用户创建,并支持用户创建多个虚拟接口。 托管专线接入,是多个用户共享端口资源的物理连接,此种类型的物理连接由合作伙伴创建,并且只允许用户创建一个虚拟接口。用户通过向合作伙伴申请来创建托管物理连接,需要合作伙伴为用户分配VLAN和带宽资源。 虚拟网关 虚拟网关是实现物理连接访问VPC的逻辑接入网关,虚拟网关会关联用户访问的VPC,一个虚拟网关只能关联一个VPC,多条物理连接可以通过同一个虚拟网关实现专线接入,访问同一个VPC。 虚拟接口 虚拟接口是用户本地数据中心通过专线访问VPC的入口,用户创建虚拟接口关联物理连接和虚拟网关,连通用户网关和虚拟网关,实现云下数据中心和云上VPC的互访。
  • 过滤策略说明 过滤策略参数填写通配符规则说明和约束说明参见表6。 表6 过滤策略参数说明 参数 说明 填写规则 约束说明 黑名单 命中黑名单规则,则文件不进行迁移/一致性对比。支持精确匹配和模糊匹配。 精确匹配,填写文件绝对路径 全路径精确匹配,特殊字符用反斜杠(\)转义 模糊匹配 *匹配任何字符0个或者多个,但不匹配斜杠(/) 使用**匹配任何字符0个或者多个,包括斜杠(/) ?匹配除斜杠(/)之外的任何字符,只能匹配一个 {和}定义元素之间的选择:包含一个以逗号分隔的模式列表, 其中任何一种模式都可能匹配,可以包含通配符。 特殊字符可以在它们之前使用 \进行转义,\后面为通配符时,表示转义,否则表示\本身 除{ 和 } 以外,不能出现连续的规则符号,例如:***、*?、**?、?*、?**、*{*、*}*、*}?、?{*、{*}、{,}、{*,、 ,*}、,*,。 { 和 } 之间的模式,只能使用*做通配符。 { 和 } 之间的模式,不能有{}嵌套。 文件绝对路径在黑名单和白名单同时命中,则黑名单生效,即不做迁移。 需要配置多个匹配规则时,用英文分号隔开。 白名单 白名单为空时,迁移所有文件。 白名单不为空时,仅对绝对路径命中白名单规则的文件进行迁移/一致性对比。 时间段 配置时间段,根据配置,迁移最后修改时间在配置时间段内的文件或者文件夹。 开始时间和结束时间可以配置为空,为空时表示不限制,时间可以精确到分钟。
  • 回答 HetuEngine计算实例的启动依赖Python文件,需确保各节点“/usr/bin/”路径下面存在Python文件。 登录FusionInsight Manager,单击“主机”,查看并记录所有主机的业务IP。 以root用户登录1记录的节点,在所有节点都执行以下命令,在“/usr/bin/”目录下添加“python3”的软连接。 cd /usr/bin ln -s python3 python 重新启动HetuEngine计算实例。
  • 回答 Linux的netcat命令没有与Zookeeper服务器安全通信的选项,所以当启用安全的netty配置时,它不能支持Zookeeper四个字母的命令。 为了避免这个问题,用户可以使用下面的Java API来执行四个字母的命令。 org.apache.zookeeper.client.FourLetterWordMain 例如: String[] args = new String[]{host, port, "stat"}; org.apache.zookeeper.client.FourLetterWordMain.main(args); netcat命令只能用于非安全的netty配置。
  • 回答 由于在删除了大量文件之后,DataNode需要时间去删除对应的Block。当立刻重启NameNode时,NameNode会去检查所有DataNode上报的Block信息,发现已删除的Block时,会输出对应的INFO日志信息,如下所示: 2015-06-10 19:25:50,215 | INFO | IPC Server handler 36 on 25000 | BLOCK* processReport: blk_1075861877_2121067 on node 10.91.8.218:9866 size 10249 does not belong to any file | org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.processReport(BlockManager.java:1854) 每一个被删除的Block会产生一条日志信息,一个文件可能会存在一个或多个Block。当删除的文件数过多时,NameNode会花大量的时间打印日志,然后导致NameNode启动慢。 当出现这种现象时,您可以通过如下方式提升NameNode的启动速度。 删除大量文件时,不要立刻重启NameNode,待DataNode删除了对应的Block后重启NameNode,即不会存在这种情况。 您可以通过hdfs dfsadmin -report命令来查看磁盘空间,检查文件是否删除完毕。 如已大量出现以上日志,您可以将NameNode的日志级别修改为ERROR,NameNode不会再打印此日志信息。 等待NameNode启动完毕后,再将此日志级别修改为INFO。修改日志级别后无需重启服务。
  • 在UI显示container日志 默认情况下,系统会将container日志收集到HDFS中。如果您不需要将container日志收集到HDFS中,可以配置参数见表2。具体配置操作请参考修改集群服务配置参数。 表2 参数说明 配置参数 说明 默认值 yarn.log-aggregation-enable 设置是否将container日志收集到HDFS中。 设置为true,表示日志会被收集到HDFS目录中。默认目录为“{yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}”,该路径可通过界面上的“yarn.nodemanager.remote-app-log-dir-suffix”参数进行配置。 设置为false,表示日志不会收集到HDFS中。 修改参数值后,需重启Yarn服务使其生效。 说明: 在修改值为false并生效后,生效前的日志无法在UI中获取。您可以在“yarn.nodemanager.remote-app-log-dir-suffix”参数指定的路径中获取到生效前的日志。 如果需要在UI上查看之前产生的日志,建议将此参数设置为true。 true
  • 在WebUI显示更多历史作业 默认情况下,Yarn WebUI界面支持任务列表分页功能,每个分页最多显示5000条历史作业,总共最多保留10000条历史作业。如果您需要在WebUI上查看更多的作业,可以配置参数如表3。具体配置操作请参考修改集群服务配置参数。 表3 参数说明 配置参数 说明 默认值 yarn.resourcemanager.max-completed-applications 设置在WebUI总共显示的历史作业数量。 10000 yarn.resourcemanager.webapp.pagination.enable 是否开启Yarn WebUI的任务列表后台分页功能。 true yarn.resourcemanager.webapp.pagination.threshold 开启Yarn WebUI的任务列表后台分页功能后,每个分页显示的最大作业数量。 5000 显示更多的历史作业,会影响性能,增加打开Yarn WebUI的时间,建议开启后台分页功能,并根据实际硬件性能修改“yarn.resourcemanager.max-completed-applications”参数。 修改参数值后,需重启Yarn服务使其生效。
  • 缓冲区超时设置 由于task在执行过程中存在数据通过网络进行交换,数据在不同服务器之间传递的缓冲区超时时间可以通过setBufferTimeout进行设置。 当设置“setBufferTimeout(-1)”,会等待缓冲区满之后才会刷新,使其达到最大吞吐量;当设置“setBufferTimeout(0)”时,可以最小化延迟,数据一旦接收到就会刷新;当设置“setBufferTimeout”大于0时,缓冲区会在该时间之后超时,然后进行缓冲区的刷新。 示例可以参考如下: env.setBufferTimeout(timeoutMillis); env.generateSequence(1,10).map(new MyMapper()).setBufferTimeout(timeoutMillis);
  • 操作步骤 以omm用户登录到需要配置SSL的DBService节点上。 进入“$BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2.7.0/sbin/”目录,执行以下命令: ./proceed_ha_ssl_cert.sh DBService安装目录 节点IP地址。 例如: cd $BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2.7.0/sbin/ ./proceed_ha_ssl_cert.sh $BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2.7.0 10.10.10.10 “$BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2.7.0”为DBService工作区安装目录,请按照实际环境进行修改。 进入“$BIGDATA_HOME/FusionInsight_BASE_x.x.x/install/FusionInsight-dbservice-2.7.0/ha/module/hacom/script/”目录,执行以下命令重启HA: ./stop_ha.sh ./start_ha.sh 在以上节点执行以下命令获取HA进程的“pid”: ps -ef |grep "ha.bin" |grep DBSERVICE 执行以下命令,查看协议是否全部变更为TCP: netstat -nap | grep pid | grep -v unix 是,结束操作。 否,执行2。 (Not all processes could be identified, non-owned process info will not be shown, you would have to be root to see it all.) tcp 0 0 127.0.0.1:20054 0.0.0.0:* LISTEN 11896/ha.bin tcp 0 0 10.10.10.10:20052 10.10.10.14:20052 ESTABLISHED 11896/ha.bin tcp 0 0 10.10.10.10:20053 10.10.10.14:20053 ESTABLISHED 11896/ha.bin
  • CDL同步任务支持的数据类型及映射关系 主要介绍CDL同步任务支持的数据类型,以及源端数据库数据类型跟Spark数据类型的映射关系。 表3 PgSQL和Spark数据类型映射关系 PostgreSQL数据类型 Spark(Hudi)数据类型 int2 int int4 int int8 bigint numeric(p, s) decimal[p,s] bool boolean char string varchar string text string timestamptz timestamp timestamp timestamp date date json, jsonb string float4 float float8 double 表4 MySQL和Spark数据类型映射关系 MySQL数据类型 Spark(Hudi)数据类型 int int integer int bigint bigint double double decimal[p,s] decimal[p,s] varchar string char string text string timestamp timestamp datetime timestamp date date json string float double 表5 Ogg/Ogg Oracle Avro(MRS 3.3.0及之后版本)和Spark数据类型映射关系 Oracle数据类型 Spark(Hudi)数据类型 NUMBER(3),NUMBER(5) bigint INTEGER decimal NUMBER(20) decimal NUMBER decimal BINARY_DOUBLE double CHAR string VARCHAR string TIMESTAMP, DATETIME timestamp timestamp with time zone timestamp DATE timestamp 表6 DRS Opengauss Json和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Opengauss Json数据类型 Spark(Hudi)数据类型 int2 int int4 int int8 bigint numeric(p,s) decimal[p,s] bool boolean varchar string timestamp timestamp timestampz timestamp date date jsonb string json string float4 float float8 duble text string 表7 DRS Oracle Json和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Oracle Json数据类型 Spark(Hudi)数据类型 number(p,s) decimal[p,s] binary double double char string varchar2 string nvarchar2 string timestamp timestamp timestamp with time zone timestamp date timestamp 表8 DRS Oracle Avro和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Oracle Avro数据类型 Spark(Hudi)数据类型 nuber[p,s] decimal[p,s] flaot(p) float binary_double double char(p) string varchar2(p) string timestamp(p) timestamp date timestamp 表9 openGauss和Spark数据类型映射关系(MRS 3.3.0及之后版本支持) Opengauss数据类型 Spark(Hudi)数据类型 int1 int int2 int int4 int int8 bigint numeric(p,s) decimal[p,s] bool boolean char string bpchar string nvarchar2 string text string date date timestamp timestamp timestampz timestamp json string jsonb string float4 float float8 double real float 表10 Spark(Hudi)和DWS数据类型映射关系 Spark(Hudi)数据类型 DWS数据类型 int int long bigint float float double double decimal[p,s] decimal[p,s] boolean boolean string varchar date date timestamp timestamp 表11 Spark(Hudi)和ClickHouse数据类型映射关系 Spark(Hudi)数据类型 ClickHouse数据类型 int Int32 long Int64 (bigint) float Float32 (float) double Float64 (double) decimal[p,s] Decimal(P,S) boolean bool string String (LONGTEXT, MEDIUMTEXT, TINYTEXT, TEXT, LONGBLOB, MEDIUMBLOB, TINYBLOB, BLOB, VARCHAR, CHAR) date Date timestamp DateTime
  • 返回结果 参数 描述 path_num 指定目录的子目录数量 file_num 指定目录的文件数量 storage_size 该目录的Size(bytes) storage_size(unit) 该目录的Size(KB) storage_path 指定目录的完整FS绝对路径 space_consumed 返回文件/目录在集群中占用的实际空间,即它考虑了为集群设置的复制因子 quota 名称配额(名称配额是对当前目录树中的文件和目录名称数量的硬性限制) space_quota 空间配额(空间配额是对当前目录树中的文件所使用的字节数量的硬性限制)
  • 操作步骤 将自主研发的代码打成jar包。 建立插件目录布局。 进入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d”路径下,使用以下命令建立目录,可根据实际业务进行命名,无固定名称: cd /opt/flumeclient/fusioninsight-flume-1.9.0/plugins.d mkdir thirdPlugin cd thirdPlugin mkdir lib libext native 显示结果如下: 将第三方jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/lib”路径下,如果该jar包依赖其他jar包,则将所依赖的jar包放入“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/libext”文件夹中,“Flume客户端安装目录/fusionInsight-flume-*/plugins.d/thirdPlugin/native”放置本地库文件。 配置“Flume客户端安装目录/fusionInsight-flume-*/conf/properties.properties”文件。 具体properties.properties参数配置方法,参考配置Flume非加密传输数据采集任务和配置Flume加密传输数据采集任务对应典型场景中properties.properties文件参数列表的说明。
  • 配置参数 在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数: 参数 说明 默认值 spark.sql.mergeSmallFiles.enabled 设置为true,Spark写入目标表时会判断是否写入了小文件,如果发现有小文件,则会启动合并小文件的job。 false spark.sql.mergeSmallFiles.threshold.avgSize 如果某个分区的平均文件大小小于该值,则启动小文件合并。 16MB spark.sql.mergeSmallFiles.maxSizePerTask 合并后的每个文件大小目标大小。 256MB spark.sql.mergeSmallFiles.moveParallelism 当不需要合并小文件后时,将临时文件移动到最终目录的并行度。 10000
  • 配置描述 为了使WebUI页面显示日志,需要将聚合日志进行解析和展现。Spark是通过Hadoop的JobHistoryServer来解析聚合日志的,所以您可以通过“spark.jobhistory.address”参数,指定JobHistoryServer页面地址,即可完成解析和展现。 参数入口: 在应用提交时通过“--conf”设置这些参数,或者在客户端的“spark-defaults.conf”配置文件中调整如下参数。 此功能依赖Hadoop中的JobHistoryServer服务,所以使用聚合日志之前需要保证JobHistoryServer服务已经运行正常。 如果参数值为空,“AggregatedLogs”页签仍然存在,但是无法通过logs链接查看日志。 只有当App已经running,HDFS上已经有该App的事件日志文件时才能查看到聚合的container日志。 正在运行的任务的日志,用户可以通过“Executors”页面的日志链接进行查看,任务结束后日志会汇聚到HDFS上,“Executors”页面的日志链接就会失效,此时用户可以通过“AggregatedLogs”页面的logs链接查看聚合日志。 表1 参数说明 参数 描述 默认值 spark.jobhistory.address JobHistoryServer页面的地址,格式:http(s)://ip:port/jobhistory。例如,将参数值设置为“https://10.92.115.1:26014/jobhistory”。 默认值为空,表示不能从WebUI查看container聚合日志。 修改参数后,需重启服务使得配置生效。 -
  • 配置场景 当Yarn配置“yarn.log-aggregation-enable”为“true”时,就开启了container日志聚合功能。日志聚合功能是指:当应用在Yarn上执行完成后,NodeManager将本节点中所有container的日志聚合到HDFS中,并删除本地日志。详情请参见配置Container日志聚合功能。 然而,开启container日志聚合功能之后,其日志聚合至HDFS目录中,只能通过获取HDFS文件来查看日志。开源Spark和Yarn服务不支持通过WebUI查看聚合后的日志。 因此,Spark在此基础上进行了功能增强。如图1所示,在HistoryServer页面添加“AggregatedLogs”页签,可以通过“logs”链接查看聚合的日志。 图1 聚合日志显示页面
  • 操作步骤 使用安装客户端的用户登录客户端所在节点,具体操作请参见使用客户端运行Loader作业。 执行以下命令,进入“backup.properties”文件所在目录。例如,Loader客户端安装目录为 “/opt/client/Loader/”。 cd /opt/client/Loader/loader-tools-1.99.3/loader-backup/conf 执行以下命令,修改“backup.properties”文件的配置参数,参数具体说明如表1所示。 vi backup.properties server.url = 10.0.0.1:21351,10.0.0.2:12000 authentication.type = kerberos authentication.user = authentication.password= job.jobId = 1 use.keytab = true client.principal = loader/hadoop client.keytab = /opt/client/conf/loader.keytab 表1 配置参数说明 配置参数 说明 示例 server.url Loader服务的浮动IP地址和端口(21351)。 为了兼容性,此处支持配置多个IP地址和端口,并以“,”进行分隔。其中第一个必须是Loader服务的浮动IP地址和端口(21351),其余的可根据业务需求配置。 10.0.0.1:21351,10.0.0.2:12000 authentication.type 登录认证的方式。 “kerberos”,表示使用安全模式,进行Kerberos认证。Kerberos认证提供两种认证方式:密码和keytab文件。 “simple”,表示使用普通模式,不进行Kerberos认证。 kerberos authentication.user 普通模式或者使用密码认证方式时,登录使用的用户。 keytab登录方式,则不需要设置该参数。 bar authentication.password 使用密码认证方式时,登录使用的用户密码。 普通模式或者keytab登录方式,则不需要设置该参数。 用户需要对密码加密,加密方法: 进入“encrypt_tool”所在目录。例如,Loader客户端安装目录为“/opt/hadoopclient/Loader”,则执行如下命令。 cd /opt/hadoopclient/Loader/loader-tools-1.99.3 执行以下命令,对非加密密码进行加密。命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 ./encrypt_tool 未加密的密码 得到加密后的密文,作为“authentication.password”的取值。 说明: 非加密密码中含有特殊字符时需要转义。例如,$符号属于特殊字符,可使用单引号进行转义;非加密密码中含有单引号时可用双引号进行转义,非加密密码中含有双引号应使用反斜杠\进行转义。可参考Shell的转义字符规则。 - job.jobId 需要执行数据备份的作业ID。 作业ID可通过登录Loader webUI在已创建的作业查看。 1 use.keytab 是否使用keytab方式登录。 true,表示使用keytab文件登录 false,表示使用密码登录。 true client.principal 使用keytab认证方式时,访问Loader服务的用户规则。 普通模式或者密码登录方式,则不需要设置该参数。 loader/hadoop client.keytab 使用keytab认证方式登录时,使用的keytab文件所在目录。 普通模式或者密码登录方式,则不需要设置该参数。 /opt/client/conf/loader.keytab 执行以下命令,进入备份脚本“run.sh”所在目录。例如,Loader客户端安装目录为“/opt/hadoopclient/Loader”。 cd /opt/hadoopclient/Loader/loader-tools-1.99.3/loader-backup 执行以下命令,运行备份脚本“run.sh”,进行Loader作业数据备份。系统将数据备份到作业的输出路径同一层目录。 ./run.sh 备份数据的输入目录 例如,备份数据的输入目录为“/user/hbase/”,作业的输出路径为/opt/client/sftp/sftp1,其中sftp1只起到一个占位符的作用。执行如下命令,数据将备份到/opt/client/sftp/hbase目录。 ./run.sh /user/hbase/
  • 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 获取FTP服务器使用的用户和密码,且该用户具备FTP服务器上源文件的读取权限。如果源文件在导入后文件名要增加后缀,则该用户还需具备源文件的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从FTP服务器导入数据时,确保FTP服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。
  • 操作步骤 登录安装Flume客户端的节点,并切换到客户端安装目录。例如“/opt/FlumeClient”。 切换到以下目录 cd fusioninsight-flume-Flume组件版本号/bin 执行以下命令,加密原始信息: ./genPwFile.sh 输入两次待加密信息。 执行以下命令,查看加密后的信息: cat password.property 如果加密参数是用于Flume Server,那么需要到相应的Flume Server所在节点执行加密。需要使用omm用户执行加密脚本进行加密。 加密路径为“/opt/Bigdata/FusionInsight_Porter_XXX/install/FusionInsight-Flume-Flume组件版本号/flume/bin/genPwFile.sh”。其中XXX为产品的版本号。
  • 日志级别 MapReduce中提供了如表2所示的日志级别。其中日志级别优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG。程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 FATAL FATAL表示当前事件处理存在严重错误信息。 ERROR ERROR表示当前事件处理存在错误信息。 WARN WARN表示当前事件处理存在异常告警信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统的调试信息。 如果您需要修改日志级别,请执行如下操作: 进入MapReduce服务参数“全部配置”界面,具体操作请参考修改集群服务配置参数。 左边菜单栏中选择所需修改的角色所对应的日志菜单。 选择所需修改的日志级别。 保存配置,在弹出窗口中单击“确定”使配置生效。 配置完成后立即生效,不需要重启服务。
  • Hive ACL权限 表1 CarbonData表级操作所需的Hive ACL权限 场景 所需权限 DESCRIBE TABLE SELECT (of table) SELECT SELECT (of table) EXPLAIN SELECT (of table) CREATE TABLE CREATE (of database) CREATE TABLE As SELECT CREATE (on database), INSERT (on table), RW on data file, and SELECT (on table) LOAD INSERT (of table) RW on data file DROP TABLE OWNER (of table) DELETE SEGMENTS DELETE (of table) SHOW SEGMENTS SELECT (of table) CLEAN FILES DELETE (of table) INSERT OVERWRITE / INSERT INTO INSERT (of table) RW on data file and SELECT (of table) CREATE INDEX OWNER (of table) DROP INDEX OWNER (of table) SHOW INDEXES SELECT (of table) ALTER TABLE ADD COLUMN OWNER (of table) ALTER TABLE DROP COLUMN OWNER (of table) ALTER TABLE CHANGE DATATYPE OWNER (of table) ALTER TABLE RENAME OWNER (of table) ALTER TABLE COMPACTION INSERT (on table) FINISH STREAMING OWNER (of table) ALTER TABLE SET STREAMING PROPERTIES OWNER (of table) ALTER TABLE SET TABLE PROPERTIES OWNER (of table) UPDATE CARBON TABLE UPDATE (of table) DELETE RECORDS DELETE (of table) REFRESH TABLE OWNER (of main table) REGISTER INDEX TABLE OWNER (of table) SHOW PARTITIONS SELECT (on table) ALTER TABLE ADD PARTITION OWNER (of table) ALTER TABLE DROP PARTITION OWNER (of table) 如果数据库下的表由多个用户创建,那么执行Drop database命令会失败,即使执行的用户是数据库的拥有者。 在二级索引中,当父表(parent table)触发时,insert和compaction将在索引表上触发。 如果选择具有过滤条件匹配索引表列的查询,用户应该为父表和索引表提供选择权限。 LockFiles文件夹和LockFiles文件夹中创建的锁定文件将具有完全权限,因为LockFiles文件夹不包含任何敏感数据。 如果使用ACL,确保不要为DDL或DML配置任何被其他进程使用中的路径,建议创建新路径。 以下配置项需要配置路径: 1) carbon.badRecords.location 2) 创建数据库时Db_Path及其他。 对于非安全集群中的Carbon ACL权限,hive-site.xml中的参数hive.server2.enable.doAs必须设置为false。 将此属性设置为false,查询将以hiveserver2进程运行的用户身份运行。
共100000条