华为云用户手册

  • 语法格式 单个RowKey 1 2 3 4 5 6 7 8 9 CREATE TABLE [IF NOT EXISTS] TABLE_NAME ( ATTR1 TYPE, ATTR2 TYPE, ATTR3 TYPE) USING [CLOUDTABLE | HBASE] OPTIONS ( 'ZKHost'='xx', 'TableName'='TABLE_IN_HBASE', 'RowKey'='ATTR1', 'Cols'='ATTR2:CF1.C1, ATTR3:CF1.C2'); 组合RowKey 1 2 3 4 5 6 7 8 9 CREATE TABLE [IF NOT EXISTS] TABLE_NAME ( ATTR1 String, ATTR2 String, ATTR3 TYPE) USING [CLOUDTABLE | HBASE] OPTIONS ( 'ZKHost'='xx', 'TableName'='TABLE_IN_HBASE', 'RowKey'='ATTR1:2, ATTR2:10', 'Cols'='ATTR2:CF1.C1, ATTR3:CF1.C2'
  • 经典型跨源页面 显示所有的经典型跨源连接,连接数量较多时,系统分页显示。 表1 跨源连接列表参数 参数 参数说明 连接名称 所创建的跨源连接名称。 连接状态 跨源连接的状态信息,具体如下: 创建中 已激活 已失败 已失效 服务类型 目前支持访问的数据源类型如下: 表格存储服务 CloudTable和CloudTable.OPENTSDB MapReduce服务 MRS.OPENTSDB 数据仓库服务 DWS 云数据库(关系型数据库) RDS 云搜索服务 CSS 连接地址 跨源连接创建成功后将显示连接地址,用于在SQL或Spark作业中访问其他数据源。 目的地址 目的数据源的原始地址。 创建时间 每个连接的创建时间,可按创建时间顺序或倒序显示连接列表。 进度 连接创建的进度, 用百分比表示。 操作 删除。当连接状态在“创建中”时,连接不可删除。 重新激活。 更多: 绑定队列:用于为经典型跨源连接绑定队列。 解绑队列:用于解除经典型跨源连接与队列之间的绑定关系。 标签:对增强型跨源连接进行标签管理。
  • 配置样式 本章节介绍图表组件相关的样各配置项的含义。 尺寸位置 W:设置图表的宽,单位为px。 H:设置图表的高,单位px。 X:设置图表在画布中的位置。单位为px。 Y:设置图表在画布中的位置。单位为px。 不透明度:设置图表在画布上的途明度,可通过滑动条进行设置,也可手动输入百分比,比例越大透明程度越低。 图12 尺寸位置--线状图 全局样式 字体:设置图表中文字的字体,线状图、折线柱图、双轴折线柱图、台阶图、饼状图、玫瑰图、柱状图、水平柱状图支持设置。 近似曲线:单击右侧的勾选框,可设置成近似的曲线。仅线状图支持设置 数据点位置:设置台阶图数据点位置,支持设置为起点、中点、终点。 数据展示:设置玫瑰图的展示样式,支持半径和面积设置。 图13 全局样式-线状图示例 柱子样式 折线柱图、双轴折线柱图、柱状图、水平柱状图支持设置。 柱子宽度:设置柱子宽度,可以通过输入数值或单击“-”或“+”调节。输入值不能为空,输入值必须在1到100之间。 柱子圆角度:设置柱子圆角度,可以通过输入数值或单击“-”或“+”调节。输入值不能为空,输入值必须在0到100之间。 系列间距:设置系列间距,可以通过输入数值或单击“-”或“+”调节。输入值不能为空,输入值必须在-100到100之间。 边距 线状图、折线柱图、双轴折线柱图、台阶图、柱状图、水平柱状图支持设置。 顶部:设置图表与图层顶部的间距,可以通过输入数值或单击“-”或“+”调节。 底部:设置图表与图层顶部的间距,可以通过输入数值或单击“-”或“+”调节。 左侧:设置图表与图层左侧的间距,可以通过输入数值或单击“-”或“+”调节。 右侧:设置图表与图层右侧的间距,可以通过输入数值或单击“-”或“+”调节。 x轴 线状图、折线柱图、双轴折线图、台阶图、柱状图、水平柱状图y轴与x轴支持设置且设置参数一致。 显示/隐藏x轴:单击“x轴”右侧的勾选框,表示显示x轴,表示隐藏x轴。 文本:设置x轴的文本样式,包括字号、字体颜色、字体粗细、字体粗细。 线状图还支持设置角度、数据类型、分割数、轴线颜色。数据类型:坐标轴对应的字段的数据类型,可以选择数值型、类目型、时间型。分割数:当“数据类型”为“数值型”或“时间型”时,显示标签的数量会根据设置的“分割数”做自适应显示。当“数据类型”配置为其他值时,该配置项不生效。 数据类型:坐标轴对应的字段的数据类型,可以选择数值型、类目型、时间型、log型。 轴标签:支持是在轴标签的角度。输入值不能为空,输入值在-90到90之间。 双轴折线图、折线柱图支持设置轴标签的角度。 柱状图支持设置轴标签的字号、颜色、字体粗细、角度、数据类型、标签间隔、最小标签、最大标签设置。 坐标轴:设置x轴的颜色。 显示/隐藏网格线:单击“网格线”右侧的勾选框,表示显示x轴,表示隐藏网格线。 线状图支持线条格式设置,设置网格线的线条格式,其中包含实线、虚线、点划线。网格线的颜色也可配置。 图14 x轴-线状图示例 y轴 线状图、折线柱状图、柱状图、台阶图、双轴折线图柱图y1、y2轴、水平柱状图x轴与y轴支持设置且设置参数一致。 显示/隐藏y轴:单击“y轴”右侧的勾选框,显示/隐藏网格线:单击“网格线”右侧的勾选框,表示显示y轴,表示隐藏y轴。 文本:设置y轴的文本样式,包括字号、字体颜色、字体粗细、角度。 轴标签:设置y轴的标签,支持对显示格式、最小值、最大值、分割数设置。显示格式支持设置自动、取整、保留一位小数、保留两位小数、保留三位小数、保留四位小数、保留五位小数。最小值支持自动取整和数据最小值。最大值支持自动取整和数据最大值。分割数输入值不能小于1。 轴单位:设置y轴的单位和颜色。 坐标轴:设置y轴轴线的颜色。 显示/隐藏网格线:单击“网格线”右侧的勾选框,表示显示网格线,表示隐藏网格线。 线条格式:设置网格线的线条格式,其中包含实线、虚线、点划线。网格线的颜色也可配置。 图15 y轴-线状图 图例 线状图、折线图、双轴折线图、台阶图、柱状图、水平柱状图支持设置。 显示/隐藏图例:单击“图例”右侧的勾选框,表示显示图例,表示隐藏图例。 文本:设置图例的文本样式,包括字号、字体颜色、字体粗细。 布局:设置图例的位置,支持顶部居中、顶部居左、顶部居右、底部居中、底部居左、底部居右。 柱状图支持方向、左右间距、上下间距、图例间隔设置。方向支持水平和垂直设置。左右间距、上下间距、图例间隔输入不能为空,默认值分别为5、5、10。 折线柱图和双轴折线图支持左右间距、上下间距、图例间隔设置。左右间距、上下间距、图例间隔输入不能为空,默认值分别为5、5、10。 图16 图例-线状图示例 动画 线状图、折线柱图、双轴折线图、台阶图、饼状图、环形进度图、柱状图、水平柱状图支持设置。 显示/隐藏提示信息:单击“动画”右侧的勾选框,表示开启图表的动画效果;表示预不开启图表的动画效果。 入场动画:组件第一次渲染动画的时长,单位为ms。 动画效果:动画的缓动效果,系统提供多种常见的动画缓动效果供您选择。 各系列依次动画:开启后,各系列依次动画显示。未开启时,所有的系列同时动画显示。 更新动画:组件数据更新时的动画时长,单位为ms。 是否从之前位置开始:开启后,组件数据更新时,从上一个数据的位置开始播放动画;关闭后,组件数据更新时,从初始位置开始播放动画。 图17 动画-线状图示例 系列 线状图、折线柱图、双轴折线图、台阶图、饼状图、玫瑰图、柱状图、水平柱状图支持设置。 配色方案:支持默认色、经典、舒适、智能、数据、艺术的配色方案。 图18 配色方案 系列:支持对系列颜色的配置。 图19 系列颜色配置 标签属性 饼状图、玫瑰图支持设置。 显示/隐藏标签属性:单击“显示标签属性”左侧的勾选框,表示显示,表示隐藏。 标签距中间:设置标签距中间的距离。 轴距长度:设置标签的轴距长度。 字号:设置标签字体大小。 颜色:设置标签字体的颜色。 字体粗细:设置标签的字体粗细。 输入不能为空,且输入值在0到100之间。 显示/隐藏数据值:单击“数据值”右侧的勾选框,表示显示,表示隐藏。 显示/隐藏比例显示:单击“比例显示”右侧的勾选框,表示显示,表示隐藏。 边线选项 仅饼状图支持设置。 颜色:设置边线的颜色。 宽度:设置边线的宽度,输入不能为空,且输入值在0到10之间。 途明度:设置边线的透明度。输入值不能为,且输入值必须在0到1之间。 饼图属性 饼状图和玫瑰图支持设置。 内半径:设置内半径,输入不能为空,且输入值在0到100之间。 外半径:设置外半径,输入不能为空,且输入值在0到100之间。 水平位置:设置水平位置,输入不能为空,且输入值在0到100之间。 垂直位置:设置垂直位置,输入不能为空,且输入值在0到100之间。 视觉映射 仅玫瑰图支持设置。 显示/隐藏视觉映射:单击“视觉映射”左侧的勾选框,表示显示,表示隐藏。 最大值:设置视觉映射的最大值。 最小值:设置视觉映射的最小组。 映射类型:支持连续型和分段型(等值)设置。 方向:支持垂直和水平设置。 宽度:的设置宽度,输入不能为空,且输入值在0到50之间。 高度:设置映射高度,输入不能为空,且输入值在1到200之间。 左侧:设置映射左侧,输入不能为空,且输入值在0到100之间。 底部:设置映射底部,输入不能为空,且输入值在0到100之间。 文字:支持设置颜色和字号。 进度条 仅环形进度条支持设置。 内半径:设置内半径,输入不能为空,且输入值在0到100之间。 外半径:设置外半径,输入不能为空,且输入值在0到100之间。 背景色:设置进度条的背景色。 进度条颜色:设置进度条的颜色。 占比 仅环形进度条支持设置。 显示/隐藏占比:单击“占比”左侧的勾选框,表示显示,表示隐藏。 小数位:设置小数位,输入不能为空,且输入值在0到10之间 占比文本:支持字体、数值颜色、数值字号、字体粗细的设置。 偏移:支持水平偏移和垂直偏移的设置。
  • 图表类型与说明 每种图表都有其适用场景和数据要素(即,构成图表的字段)。下面为您介绍各种类型图表的使用场景、数据要素和样例展示。 表1 图表适用场景 类型 类型 说明 数据要素 线状图 线状图 折线图用来展示在相等的时间间隔下数据的趋势走向。 类别轴/维度 轴值/度量 颜色图例 折线柱图 折线柱图展示不同量级数据,支持常规线图柱图组合场景的数据展示。 组合图中折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 组合图中柱状图,可以比较各组数据之间的差别。 类别轴/维度 轴值/度量 颜色图例 双轴折线柱图 通过双轴展示不同量级数据。 组合图中折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 组合图中柱状图,可以比较各组数据之间的差别。 类别轴/维度 主轴值/度量 副轴值/度量 颜色图例 台阶图 台阶图是一种连续的数据分布的图形表现形式。 类别轴/维度 轴值/度量 颜色图例 饼状图 饼状图 饼图常用于展示数据中各项的大小与各项总和的比例。 类别轴/维度 轴值/度量 颜色图例 玫瑰图 玫瑰图展示各项数据间的比较情况,多适用于枚举型数据。 类别轴/维度 轴值/度量 颜色图例 环形进度条 环形进度条可以直观地展现出某个指标的进度。 进度值/目标值/度量 柱状图 柱状图 柱图用来比较各组数据之间的差别,并且可以显示一段时间内的数据变化情况。 类别轴/维度 轴值/度量 颜色图例 水平柱状图 与柱状图类似,条形图用横向的展示方式来比较数据间的大小以及各项之间的差距。 类别轴/维度 轴值/度量 颜色图例 折线柱图 折线柱图展示不同量级数据,支持常规线图柱图组合场景的数据展示。 组合图中折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 组合图中柱状图,可以比较各组数据之间的差别。 类别轴/维度 轴值/度量 颜色图例 双轴折线柱图 通过双轴展示不同量级数据。 组合图中折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 组合图中柱状图,可以比较各组数据之间的差别。 类别轴/维度 主轴值/度量 副轴值/度量 颜色图例
  • Token认证 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 Token可通过调用获取用户Token接口获取,调用本服务API需要project级别的Token,即调用获取用户Token接口时,请求body中auth.scope的取值需要选择project,如下所示。 { "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": "username", "password": "********", "domain": { "name": "domainname" } } } }, "scope": { "project": { "name": "xxxxxxxx" } } } } 获取Token后,再调用其他接口时,您需要在请求消息头中添加“X-Auth-Token”,其值即为Token。例如Token值为“ABCDEFJ....”,则调用接口时将“X-Auth-Token: ABCDEFJ....”加到请求消息头即可,如下所示。 1 2 3 GET https://iam.cn-north-1.myhuaweicloud.com/v3/auth/projects Content-Type: application/json X-Auth-Token: ABCDEFJ....
  • AK/SK认证 AK/SK认证就是使用AK/SK对请求进行签名,在请求时将签名信息添加到消息头,从而通过身份认证。 AK/SK签名认证方式仅支持消息体大小为12M以内的请求,12M以上的请求请使用Token认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):与访问密钥ID结合使用的密钥,对请求进行加密签名,可标识发送方,并防止请求被修改。 使用AK/SK认证时,您可以基于签名算法使用AK/SK对请求进行签名,也可以使用专门的签名SDK对请求进行签名。 详细的签名方法和SDK使用方法请参见API签名指南。 签名SDK只提供签名功能,与服务提供的SDK不同,使用时请注意。
  • 响应消息体 响应消息体通常以结构化格式返回,与响应消息头中Content-type对应,传递除响应消息头之外的内容。 对于获取用户Token接口,返回如下消息体。为篇幅起见,这里只展示部分内容。 1 2 3 4 5 6 7 8 9 10 11 12 { "token": { "expires_at": "2019-02-13T06:52:13.855000Z", "methods": [ "password" ], "catalog": [ { "endpoints": [ { "region_id": "az-01", ...... 当接口调用出错时,会返回错误码及错误信息说明,错误响应的Body体格式如下所示。 1 2 3 4 { "error_msg": "The format of message is error", "error_code": "AS.0001" } 其中,error_code表示错误码,error_msg表示错误描述信息。
  • Serverless DLI DLI完全兼容Apache Spark、Apache Flink生态和接口,是集实时分析、离线分析、交互式分析为一体的Serverless大数据计算分析服务。线下应用可无缝平滑迁移上云,减少迁移工作量。采用批流融合高扩展性框架,为TB~EB级数据提供了更实时高效的多样性算力,可支撑更丰富的大数据处理需求。产品内核及架构深度优化,综合性能是传统MapReduce模型的百倍以上,SLA保障99.95%可用性。 图1 DLI Serverless架构 与传统自建Hadoop集群相比,Serverless架构的DLI还具有以下优势: 表1 Serverless DLI与传统自建Hadoop集群对比的优势 优势 维度 数据湖探索 DLI 自建Hadoop系统 低成本 资金成本 按照实际扫描数据量或者CU时收费,可变成本,成本可节约50%。 长期占用资源,资源浪费严重,成本高。 弹性扩缩容能力 基于容器化Kubernetes,具有极致的弹性伸缩能力。 无。 免运维 运维成本 即开即用,Serverless架构。 需要较强的技术能力进行搭建、配置、运维。 高可用 具有跨AZ容灾能力。 无 高易用 学习成本 学习成本低,包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。 学习成本高,需要了解上百个调优参数。 支持数据源 云上:OBS、RDS、DWS、CSS、MongoDB、Redis。 云下:自建数据库、MongoDB、Redis。 云上:OBS。 云下:HDFS。 生态兼容 DLV、永洪BI、帆软。 大数据生态工具。 自定义镜像 支持,满足业务多样性。 无。 工作流调度 DataArts Studio-DLF调度。 自建大数据生态的调度工具,如Airflow。 企业级多租户 基于表的权限管理,可以精细化到列权限。 基于文件的权限管理。 高性能 性能 基于软硬件一体化的深度垂直优化。 大数据开源版本性能。
  • 设置组件数据 本章节以线状组件为例,介绍组件的数据配置。 图1 配置组件数据-线状图 数据源类型 选择图表的数据源类型,在数据区域可以查看或编辑相应的内容。单击数据区域右下角的按钮可以将数据区域窗口放大并弹出显示,以方便您查看和编辑数据。 图2 数据区域 系统提供如下数据源供用户选择: 静态数据 参考显示的数据示例格式,根据需求调整数据值,或粘贴已准备的JSON格式数据。数据示例如下: [ { "x": "01/01 09:17:56", "y": 375, "s": 1 }, { "x": "01/01 09:20:07", "y": 200, "s": 1 }, { "x": "01/01 09:28:07", "y": 25, "s": 1 }, { "x": "01/01 09:34:07", "y": 190, "s": 1 }, { "x": "01/01 09:40:07", "y": 90, "s": 2 }, { "x": "01/01 09:49:07", "y": 233, "s": 2 }, { "x": "01/01 09:55:07", "y": 150, "s": 2 }, { "x": "01/01 10:30:07", "y": 233, "s": 2 } ] API 通过API连接用户的数据源,数据格式参考静态数据中的示例。添加API数据源的详细介绍,请参见新建API数据连接。 数据库、CSV文件、API网关、DAYU 数据服务、Elasticsearch、对象存储服务(OBS) 如果选择使用此类数据源,您还需要选择相应的数据连接,数据连接的相关说明请参见新建数据连接。数据格式参考静态数据中的示例。 数据映射 系统为用户提供自定义字段映射关系的功能。 图3 数据映射-线状图 数据字段设置 单击需要修改字段前的“”,在下拉列中对字段进行设置。 图4 字段设置--饼状图 系列名:设置所属系列的名称。 颜色:设置对应字段在图表上的颜色显示。 数据系列 s字段为数据系列字段,数据将根据s字段的值进行分组。如图3所示:s的值等于1的数据为一组,s的值等于2的数据为一组。 新增数据系列 单击s字段后方的,增加数据系列。 配置数据系列 单击数据系列前方的,在展开的页面中配置数据系列的如下样式。 系列名:设置数据系列的名称。 样式:设置数据系列的坐标点形状,可以选择圆形、矩形、三角形等。 颜色:设置数据系列的曲线颜色。 宽度:设置数据系列的曲线宽度。 不透明:设置数据系列填充色的透明度。 值标签:勾选则在图表中显示对应点的取值,并为取值设置显示的字号、颜色、字体粗细、位置。 超链接:设置数据系列的超链接。 链接方式:设置超链接的位置,可以选择新窗口、当前页、浮窗。 自动更新请求 勾选自动更新请求,并设置更新间隔后,数据将根据间隔时间自动轮询。 预览结果 单击“更新查询”,可以在数据源变更时手动更新组件数据。“预览结果”,显示选择的数据源的数据信息。 数据请求超时时间为60s, 请确保在网络延迟、SQL执行效率等因素影响下,数据请求可以在60s内返回结果。 数据转换器 将数据转换为符合展示需求数据,数据转换器的详细介绍,请参见使用数据转换器。 父主题: 管理组件
  • 配额 资源编排对单个用户资源栈数量限定了配额,如下表所示。 如果您需要添加更多的模板或创建更多的资源栈,请提交工单申请。配额的详细信息请参见关于配额。 资源类型 限制项 限制值 模板 每个华为云账号允许创建的最大模板个数 100 模板名最大长度 128字符 模板文件名称 255字节(一个中文字符=3个字节) 模板URL地址长度 2048字节 创建模板或版本接口参数template_uri传递文件内容最大值 解压后1M 创建模板或版本接口参数template_body传递文件内容最大值 50 KB 资源栈 每个华为云账号允许创建的最大资源栈个数 100 资源栈创建超时时间 6h 资源栈名称长度 128字符 执行计划 执行计划命名最大长度 255b 每个资源栈中允许创建的最大执行计划数量 100
  • 约束与限制 通过流量包套餐创建的云耀云服务器(HECS),系统绑定的弹性公网IP不支持加入到共享带宽。 EIP的线路类型与要加入的共享带宽的线路类型一致。 不支持包年包月的弹性公网IP添加到共享带宽。 包年包月的弹性公网IP添加到共享带宽,需要先转为按需计费模式。 “普通带宽”线路类型的共享带宽可添加动态BGP类型的EIP以及IPv6网卡,“优选BGP”线路类型的共享带宽可添加优选BGP类型的EIP以及IPv6网卡。 通用可用区的共享带宽不支持添加边缘可用区的EIP,边缘可用区的共享带宽也不支持添加通用可用区的EIP。 关于边缘可用区和普通可用区的区别请参考《智能边缘小站用户指南》。
  • Distcp方式迁移 Hadoop Distcp(Distributed copy)主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 配置指南 参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法,完成OBS相关配置。 使用示例 以迁移HDFS上的“/data/sample”目录为例,执行以下命令查看HDFS文件系统上此目录下的文件与目录。 hadoop fs -ls hdfs:///data/sample 执行以下命令,将HDFS文件系统上“/data/sample”目录下所有文件与目录迁移到OBS桶“obs-bigdata-posix-bucket”的“data/sample”目录下。 hadoop distcp hdfs:///data/sample obs://obs-bigdata-posix-bucket/data/sample 执行以下命令,查看拷贝的文件。 hadoop fs -ls obs://obs-bigdata-posix-bucket/data/sample
  • 问题分析 登录MRS Manager上查看Presto全部配置,Coordinator角色配置: PRESTO_COORDINATOR_FLOAT_IP = 内网IP地址 登录Coordinator角色所在主实例节点确认该地址为网卡:eth0:PRESTO。 Presto服务端口:非安全集群为7520;安全集群为7521; 因此公网访问需要给对应的浮动网卡绑定公网地址,然后填写正确的JDBC URL即可 URL格式: jdbc:presto://example_ip:7520/Catalog/schema jdbc:presto://example_ip:7521/Catalog/schema
  • 处理总结 将sqoop的lib下htrace-core-3.1.0-incubating.jar和hbase的lib下的metrics-core-2.2.0.jar,复制到“/opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/”下。 修改jar包的文件权限为777和omm:ficommon。 所有节点均采取以上操作,重新运行sqoop任务即可。
  • 处理步骤 进入Sqoop的安装目录下查找文件。 进入Sqoop节点的“/opt/Bigdata/MRS_1.9.2/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/lib”目录下,进行grep查找。 进入Yarn WebUI界面,查看运行的任务的报错具体信息。 将java.class.path复制出来,搜索htrace-core。 复制jar包到如下位置。 cp /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/lib/htrace-core-3.1.0-incubating.jar /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/ 修改权限。 chmod 777 htrace-core-3.1.0-incubating.jar (真实复制的jar包) chown omm:ficommon htrace-core-3.1.0-incubating.jar (真实复制的jar包) 查看hosts文件,对其他所有节点进行同样的复制jar包操作。 重新运行sqoop任务,产生报错如下: 去HBase的安装目录下查找文件。 进入HBase的lib目录下,进行grep查找。 继续复制jar包。 cp /opt/Bigdata/MRS_1.9.2/install/FusionInsight-HBase-1.3.1/hbase/lib/metrics-core-2.2.0.jar /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/ 修改文件权限。 chmod 777 metrics-core-2.2.0.jar (真实复制的jar包) chown omm:ficommon metrics-core-2.2.0.jar(真实复制的jar包) 查看hosts文件,对其他所有节点进行同样的复制jar包操作。 继续运行sqoop任务,成功。
  • 解决办法 认证异常。 登录客户端节点,进入客户端目录。 执行以下命令重新提交任务。(业务jar包和Topology根据实际情况替换) source bigdata_env kinit 用户名 storm jar storm-starter-topologies-0.10.0.jar storm.starter.WordCountTopology test 拓扑包异常。 排查业务jar,将业务jar中storm.yaml文件删除,重新提交任务。
  • 问题现象 运行Spark任务报找不到指定的类“ClassNotFoundException”。 详细报错内容如下: Exception encountered | org.apache.spark.internal.Logging$class.logError(Logging.scala:91) org.apache.hadoop.hbase.DoNotRetryIOException: java.lang.ClassNotFoundException: org.apache.phoenix.filter.SingleCQKeyValueComparisonFilter
  • 用户问题 MRS Sqoop迁移数据库数据报错如下: Communications link failure; The driver has not received any packets from the server; 源端为DWS数据库时报错如下: got exception running sqoop .java.lang.Runtime.Exception, could not load db driver class。 图1 Sqoop迁移数据库数据报错 图2 源端为DWS时报错
  • 处理步骤 检查源端数据库端口对集群节点均放通。 若使用EIP公网通信,那么集群节点均需要绑定公网,尤其是分析节点,必须绑定公网才能保证作业正常运行。 sqoop实例一般分布在Master节点,但作业真正运行在分析节点,因此创建数据库连接,是和Master节点通信,作业是通过Yarn任务分发到分析节点执行。 检查Sqoop实例安装目录下是否放置数据库驱动jar包,并保证jar包路径正确,文件权限及属主属组正确;配置文件正确配置;保证这些后需要重启Sqoop实例后才可以正常加载驱动。 MRS 3.X集群驱动路径为:/opt/Bigdata/FusionInsight_Current/1_xx_LoaderServer/install/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib/ MRS3.X之前版本集群驱动路径为:/opt/Bigdata/MRS_XXX/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/ 3.x之前版本需要修改配置文件。 如果是命令行提交作业,建议指定--driver参数。 如源端是DWS时命令行加:--driver com.xxx.gauss200.jdbc.Driver ,如下图。 图3 源端是dws时driver参数 其他数据库根据实际情况填写--driver参数。
  • 问题背景与现象 在Yarn使用Capacity调度器时,单击Yarn WebUI页面的队列名称时,系统上报“ERROR 500”的错误。 HTTP ERROR 500 javax.servlet.ServletException: javax.servlet.ServletException: java.lang.IllegalArgu mentException: Illegal character in queryat index 81: https://XXX:20026/Yarn/ResourceManager/21/cluster/scheduler? openQueues= ^default$
  • 问题背景与现象 业务拓扑代码中配置参数topology.worker.childopts不生效,关键日志如下: [main] INFO b.s.StormSubmitter - Uploading topology jar /opt/jar/example.jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar Start uploading file '/opt/jar/example.jar' to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar' (65574612 bytes) [==================================================] 65574612 / 65574612 File '/opt/jar/example.jar' uploaded to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar' (65574612 bytes) [main] INFO b.s.StormSubmitter - Successfully uploaded topology jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar [main] INFO b.s.StormSubmitter - Submitting topology word-count in distributed mode with conf {"topology.worker.childopts":"-Xmx4096m","storm.zookeeper.topology.auth.scheme":"digest","storm.zookeeper.topology.auth.payload":"-5915065013522446406:-6421330379815193999","topology.workers":1} [main] INFO b.s.StormSubmitter - Finished submitting topology: word-count 通过ps -ef | grep worker命令查看worker进程信息如下:
  • 解决办法 如果想要修改拓扑的JVM参数,可以在命令中直接修改topology.worker.gc.childopts这个参数或者在服务端修改该参数,当topology.worker.gc.childopts为 "-Xms4096m -Xmx4096m -XX:+UseG1GC -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M"时,效果如下: [main-SendThread(10.7.61.88:2181)] INFO o.a.s.s.o.a.z.ClientCnxn - Socket connection established, initiating session, client: /10.7.61.88:44694, server: 10.7.61.88/10.7.61.88:2181 [main-SendThread(10.7.61.88:2181)] INFO o.a.s.s.o.a.z.ClientCnxn - Session establishment complete on server 10.7.61.88/10.7.61.88:2181, sessionid = 0x16037a6e5f092575, negotiated timeout = 40000 [main-EventThread] INFO o.a.s.s.o.a.c.f.s.ConnectionStateManager - State change: CONNECTED [main] INFO b.s.u.StormBoundedExponentialBackoffRetry - The baseSleepTimeMs [1000] the maxSleepTimeMs [1000] the maxRetries [1] [main] INFO o.a.s.s.o.a.z.Login - successfully logged in. [main-EventThread] INFO o.a.s.s.o.a.z.ClientCnxn - EventThread shut down for session: 0x16037a6e5f092575 [main] INFO o.a.s.s.o.a.z.ZooKeeper - Session: 0x16037a6e5f092575 closed [main] INFO b.s.StormSubmitter - Uploading topology jar /opt/jar/example.jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar Start uploading file '/opt/jar/example.jar' to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar' (74143745 bytes) [==================================================] 74143745 / 74143745 File '/opt/jar/example.jar' uploaded to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar' (74143745 bytes) [main] INFO b.s.StormSubmitter - Successfully uploaded topology jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar [main] INFO b.s.StormSubmitter - Submitting topology word-count in distributed mode with conf {"storm.zookeeper.topology.auth.scheme":"digest","storm.zookeeper.topology.auth.payload":"-7360002804241426074:-6868950379453400421","topology.worker.gc.childopts":"-Xms4096m -Xmx4096m -XX:+UseG1GC -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M","topology.workers":1} [main] INFO b.s.StormSubmitter - Finished submitting topology: word-count 通过ps -ef | grep worker命令查看worker进程信息如下:
  • 处理步骤 检查用户执行命令./bin/spark-submit --class cn.interf.Test --master yarn-client 客户端安装目录/Spark/spark1-1.0-SNAPSHOT.jar;,排查是否引入了非法字符。 如果是,修改非法字符,重新执行命令。 重新执行命令后,发生其他错误,查看该jar包的属主属组信息,发现全为root。 修改jar包的属主属组为omm:wheel,重新执行成功。
  • 原因分析 在Driver日志中直接打印申请的executor memory超过集群限制。 ... INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (6144 MB per container) ... ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory (10240+1024 MB) is above the max threshold (6144 MB) of this cluster! Spark任务提交至Yarn上面,运行task的executor使用的资源受yarn的管理。从报错信息可看出,用户申请启动executor时,指定10G的内存,超出了Yarn设置的每个container的最大内存的限制,导致任务无法启动。
  • 处理步骤 以root用户登录安装了Spark2x/Spark客户端的节点。 执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor.properties 调小“log4j.appender.sparklog.MaxFileSize”参数值(表示生成一份日志文件的最大存储大小,默认为50MB),例如修改为“20MB”。 调小“log4j.appender.sparklog.MaxBackupIndex”参数值(表示滚动保存的文件数量,最大为10个文件,达到第11个覆盖第一个生成的文件),例如修改为“5”。 保存文件。 重新提交作业,作业运行正常。
  • 参考信息 nimbus.task.launch.secs和supervisor.worker.start.timeout.secs这两个参数分别代表nimbus端和supervisor端对于拓扑启动的超时容忍时间,一般nimbus.task.launch.secs的值要大于等于supervisor.worker.start.timeout.secs的值(建议相等或略大,如果超出太多会影响任务重分配的效率)。 nimbus.task.launch.secs:nimbus在超过该参数配置的时间内没有收到拓扑的task发的心跳时,会将该拓扑重新分配(分配给别的supervisor),同时会刷新zk中的任务信息,supervisor读到zk中的任务信息并且与自己当前所启动的拓扑进行比较,如果存在拓扑已经不属于自己,那么则会删除该拓扑的元数据,也就是/srv/Bigdata/streaming_data/stormdir/supervisor/stormdist/{worker-id}目录。 supervisor.worker.start.timeout.secs:supervisor启动worker后,在该参数配置的时间内没有收到worker的心跳时,supervisor会主动停掉worker,等待worker的重新调度,一般在业务启动时间较长时适当增加该参数的值,保证worker能启动成功。 如果supervisor.worker.start.timeout.secs配置的值比nimbus.task.launch.secs的值大,那么则会出现supervisor的容忍时间没到,仍然继续让worker启动,而nimbus却认定该业务启动超时,将该业务分配给了其他主机,这时supervisor的后台线程发现任务不一致,删除了拓扑的元数据,导致接下来worker在启动过程中要读取stormconf.ser时,发现该文件已经不存在了,就会抛出FileNotFoundException。 nimbus.task.timeout.secs和supervisor.worker.timeout.secs这两个参数则分别代表nimbus端和supervisor端对于拓扑运行过程中心跳上报的超时容忍时间,一般nimbus.task.timeout.secs的值要大于等于supervisor.worker.timeout.secs的值(建议相等或略大),原理同上。
  • 可能原因 Worker进程启动失败,触发Nimbus重新分配任务,在其他Supervisor上启动Worker。由于Worker启动失败后会继续重启,导致Worker节点在一直变化,且Worker日志内容为空。Worker进程启动失败的可能原因有两个: 提交的Jar包中包含“storm.yaml”文件。 Storm规定,每个“classpath”中只能包含一个“storm.yaml”文件,如果多于一个那么就会产生异常。使用Storm客户端提交拓扑,由于客户端“classpath”配置和Eclipse远程提交方式“classpath”不一样,客户端会自动加载用户的Jar包到“classpath”,从而使“classpath”中存在两个“storm.yaml”文件。 Worker进程初始化时间较长,超过Storm集群设置Worker启动超时时间,导致Worker被Kill从而一直进行重分配。
  • 处理步骤 登录Ranger WebUI界面。 在“Service Manager”区域内,单击Hive组件名称,进入Hive组件安全访问策略列表页面。 分别单击“all - database”和“default database tables columns”策略所在行的按钮。 删除“public”组策略。 图1 all - database策略 图2 default database tables columns策略 在Hive组件安全访问策略列表页面,单击“Add New Policy”为相关用户或者用户组添加资源访问策略,具体请参考配置组件权限策略。
  • 原因分析 Hive启用Ranger鉴权后,默认的Hive策略中有2个关于database的public组策略, 所有用户都属于public组,默认给public组配有default数据库的创表和所有其他数据库的create权限,因此默认所有的用户都有show databases和show tables的权限,如果不想让某些用户有show databases和show tables权限,可在Ranger WEBUI中删除该默认public组策略,并赋予需要查看的用户权限。
  • 原因分析 由于执行命令的用户与当前查看pid信息的进程提交用户不一致导致。 Storm引入区分用户执行任务特性,在启动worker进程时将给进程的uid和gid改为提交用户和ficommon,目的是为了logviewer可以访问到worker进程的日志同时日志文件只开放权限到640。这样会导致切换到提交用户后对Worker进程执行jstack和jmap等命令执行失败,原因是提交用户的默认gid并不是ficommon,需要通过ldap命令修改提交用户的gid为9998(ficommon)才可执行。
共100000条