华为云用户手册

数据湖探索 DLI-创建DLI表关联HBase:语法格式

语法格式单个RowKey 1 2 3 4 5 6 7 8 9 CREATE TABLE [IF NOT EXISTS] TABLE_NAME ( ATTR1 TYPE, ATTR2 TYPE, ATTR3 TYPE) USING [CLOUDTABLE | HBASE] OPTIONS ( 'ZKHost'='xx', 'TableName'='TABLE_IN_HBASE', 'RowKey'='ATTR1', 'Cols'='ATTR2:CF1.C1, ATTR3:CF1.C2'); 组合RowKey 1 2 3 4 5 6 7 8 9 CREATE TABLE [IF NOT EXISTS] TABLE_NAME ( ATTR1 String, ATTR2 String, ATTR3 TYPE) USING [CLOUDTABLE | HBASE] OPTIONS ( 'ZKHost'='xx', 'TableName'='TABLE_IN_HBASE', 'RowKey'='ATTR1:2, ATTR2:10', 'Cols'='ATTR2:CF1.C1, ATTR3:CF1.C2'

数据湖探索 DLI 跨源连接HBase表
数据湖探索 DLI-经典型跨源连接（废弃，不推荐使用）:经典型跨源页面

经典型跨源页面显示所有的经典型跨源连接，连接数量较多时，系统分页显示。表1 跨源连接列表参数参数参数说明连接名称所创建的跨源连接名称。连接状态跨源连接的状态信息，具体如下：创建中已激活已失败已失效服务类型目前支持访问的数据源类型如下：表格存储服务 CloudTable和CloudTable.OPENTSDB MapReduce服务 MRS.OPENTSDB 数据仓库服务 DWS 云数据库（关系型数据库） RDS 云搜索服务 CSS 连接地址跨源连接创建成功后将显示连接地址，用于在SQL或Spark作业中访问其他数据源。目的地址目的数据源的原始地址。创建时间每个连接的创建时间，可按创建时间顺序或倒序显示连接列表。进度连接创建的进度，用百分比表示。操作删除。当连接状态在“创建中”时，连接不可删除。重新激活。更多：绑定队列：用于为经典型跨源连接绑定队列。解绑队列：用于解除经典型跨源连接与队列之间的绑定关系。标签：对增强型跨源连接进行标签管理。

数据湖探索 DLI
智能数据洞察 DATAARTS INSIGHT-制作常用图表:配置样式

配置样式本章节介绍图表组件相关的样各配置项的含义。尺寸位置 W：设置图表的宽，单位为px。 H：设置图表的高，单位px。 X：设置图表在画布中的位置。单位为px。 Y：设置图表在画布中的位置。单位为px。不透明度：设置图表在画布上的途明度，可通过滑动条进行设置，也可手动输入百分比，比例越大透明程度越低。图12 尺寸位置--线状图全局样式字体：设置图表中文字的字体，线状图、折线柱图、双轴折线柱图、台阶图、饼状图、玫瑰图、柱状图、水平柱状图支持设置。近似曲线：单击右侧的勾选框，可设置成近似的曲线。仅线状图支持设置数据点位置：设置台阶图数据点位置，支持设置为起点、中点、终点。数据展示：设置玫瑰图的展示样式，支持半径和面积设置。图13 全局样式-线状图示例柱子样式折线柱图、双轴折线柱图、柱状图、水平柱状图支持设置。柱子宽度：设置柱子宽度，可以通过输入数值或单击“-”或“+”调节。输入值不能为空，输入值必须在1到100之间。柱子圆角度：设置柱子圆角度，可以通过输入数值或单击“-”或“+”调节。输入值不能为空，输入值必须在0到100之间。系列间距：设置系列间距，可以通过输入数值或单击“-”或“+”调节。输入值不能为空，输入值必须在-100到100之间。边距线状图、折线柱图、双轴折线柱图、台阶图、柱状图、水平柱状图支持设置。顶部：设置图表与图层顶部的间距，可以通过输入数值或单击“-”或“+”调节。底部：设置图表与图层顶部的间距，可以通过输入数值或单击“-”或“+”调节。左侧：设置图表与图层左侧的间距，可以通过输入数值或单击“-”或“+”调节。右侧：设置图表与图层右侧的间距，可以通过输入数值或单击“-”或“+”调节。 x轴线状图、折线柱图、双轴折线图、台阶图、柱状图、水平柱状图y轴与x轴支持设置且设置参数一致。显示/隐藏x轴：单击“x轴”右侧的勾选框，表示显示x轴，表示隐藏x轴。文本：设置x轴的文本样式，包括字号、字体颜色、字体粗细、字体粗细。线状图还支持设置角度、数据类型、分割数、轴线颜色。数据类型：坐标轴对应的字段的数据类型，可以选择数值型、类目型、时间型。分割数：当“数据类型”为“数值型”或“时间型”时，显示标签的数量会根据设置的“分割数”做自适应显示。当“数据类型”配置为其他值时，该配置项不生效。数据类型：坐标轴对应的字段的数据类型，可以选择数值型、类目型、时间型、log型。轴标签：支持是在轴标签的角度。输入值不能为空，输入值在-90到90之间。双轴折线图、折线柱图支持设置轴标签的角度。柱状图支持设置轴标签的字号、颜色、字体粗细、角度、数据类型、标签间隔、最小标签、最大标签设置。坐标轴：设置x轴的颜色。显示/隐藏网格线：单击“网格线”右侧的勾选框，表示显示x轴，表示隐藏网格线。线状图支持线条格式设置，设置网格线的线条格式，其中包含实线、虚线、点划线。网格线的颜色也可配置。图14 x轴-线状图示例 y轴线状图、折线柱状图、柱状图、台阶图、双轴折线图柱图y1、y2轴、水平柱状图x轴与y轴支持设置且设置参数一致。显示/隐藏y轴：单击“y轴”右侧的勾选框，显示/隐藏网格线：单击“网格线”右侧的勾选框，表示显示y轴，表示隐藏y轴。文本：设置y轴的文本样式，包括字号、字体颜色、字体粗细、角度。轴标签：设置y轴的标签，支持对显示格式、最小值、最大值、分割数设置。显示格式支持设置自动、取整、保留一位小数、保留两位小数、保留三位小数、保留四位小数、保留五位小数。最小值支持自动取整和数据最小值。最大值支持自动取整和数据最大值。分割数输入值不能小于1。轴单位：设置y轴的单位和颜色。坐标轴：设置y轴轴线的颜色。显示/隐藏网格线：单击“网格线”右侧的勾选框，表示显示网格线，表示隐藏网格线。线条格式：设置网格线的线条格式，其中包含实线、虚线、点划线。网格线的颜色也可配置。图15 y轴-线状图图例线状图、折线图、双轴折线图、台阶图、柱状图、水平柱状图支持设置。显示/隐藏图例：单击“图例”右侧的勾选框，表示显示图例，表示隐藏图例。文本：设置图例的文本样式，包括字号、字体颜色、字体粗细。布局：设置图例的位置，支持顶部居中、顶部居左、顶部居右、底部居中、底部居左、底部居右。柱状图支持方向、左右间距、上下间距、图例间隔设置。方向支持水平和垂直设置。左右间距、上下间距、图例间隔输入不能为空，默认值分别为5、5、10。折线柱图和双轴折线图支持左右间距、上下间距、图例间隔设置。左右间距、上下间距、图例间隔输入不能为空，默认值分别为5、5、10。图16 图例-线状图示例动画线状图、折线柱图、双轴折线图、台阶图、饼状图、环形进度图、柱状图、水平柱状图支持设置。显示/隐藏提示信息：单击“动画”右侧的勾选框，表示开启图表的动画效果；表示预不开启图表的动画效果。入场动画：组件第一次渲染动画的时长，单位为ms。动画效果：动画的缓动效果，系统提供多种常见的动画缓动效果供您选择。各系列依次动画：开启后，各系列依次动画显示。未开启时，所有的系列同时动画显示。更新动画：组件数据更新时的动画时长，单位为ms。是否从之前位置开始：开启后，组件数据更新时，从上一个数据的位置开始播放动画；关闭后，组件数据更新时，从初始位置开始播放动画。图17 动画-线状图示例系列线状图、折线柱图、双轴折线图、台阶图、饼状图、玫瑰图、柱状图、水平柱状图支持设置。配色方案：支持默认色、经典、舒适、智能、数据、艺术的配色方案。图18 配色方案系列：支持对系列颜色的配置。图19 系列颜色配置标签属性饼状图、玫瑰图支持设置。显示/隐藏标签属性：单击“显示标签属性”左侧的勾选框，表示显示，表示隐藏。标签距中间：设置标签距中间的距离。轴距长度：设置标签的轴距长度。字号：设置标签字体大小。颜色：设置标签字体的颜色。字体粗细：设置标签的字体粗细。输入不能为空，且输入值在0到100之间。显示/隐藏数据值：单击“数据值”右侧的勾选框，表示显示，表示隐藏。显示/隐藏比例显示：单击“比例显示”右侧的勾选框，表示显示，表示隐藏。边线选项仅饼状图支持设置。颜色：设置边线的颜色。宽度：设置边线的宽度，输入不能为空，且输入值在0到10之间。途明度：设置边线的透明度。输入值不能为，且输入值必须在0到1之间。饼图属性饼状图和玫瑰图支持设置。内半径：设置内半径，输入不能为空，且输入值在0到100之间。外半径：设置外半径，输入不能为空，且输入值在0到100之间。水平位置：设置水平位置，输入不能为空，且输入值在0到100之间。垂直位置：设置垂直位置，输入不能为空，且输入值在0到100之间。视觉映射仅玫瑰图支持设置。显示/隐藏视觉映射：单击“视觉映射”左侧的勾选框，表示显示，表示隐藏。最大值：设置视觉映射的最大值。最小值：设置视觉映射的最小组。映射类型：支持连续型和分段型（等值）设置。方向：支持垂直和水平设置。宽度：的设置宽度，输入不能为空，且输入值在0到50之间。高度：设置映射高度，输入不能为空，且输入值在1到200之间。左侧：设置映射左侧，输入不能为空，且输入值在0到100之间。底部：设置映射底部，输入不能为空，且输入值在0到100之间。文字：支持设置颜色和字号。进度条仅环形进度条支持设置。内半径：设置内半径，输入不能为空，且输入值在0到100之间。外半径：设置外半径，输入不能为空，且输入值在0到100之间。背景色：设置进度条的背景色。进度条颜色：设置进度条的颜色。占比仅环形进度条支持设置。显示/隐藏占比：单击“占比”左侧的勾选框，表示显示，表示隐藏。小数位：设置小数位，输入不能为空，且输入值在0到10之间占比文本：支持字体、数值颜色、数值字号、字体粗细的设置。偏移：支持水平偏移和垂直偏移的设置。

智能数据洞察 DATAARTS INSIGHT 大屏组件
智能数据洞察 DATAARTS INSIGHT-制作常用图表:图表类型与说明

图表类型与说明每种图表都有其适用场景和数据要素（即，构成图表的字段）。下面为您介绍各种类型图表的使用场景、数据要素和样例展示。表1 图表适用场景类型类型说明数据要素线状图线状图折线图用来展示在相等的时间间隔下数据的趋势走向。类别轴/维度轴值/度量颜色图例折线柱图折线柱图展示不同量级数据，支持常规线图柱图组合场景的数据展示。组合图中折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。组合图中柱状图，可以比较各组数据之间的差别。类别轴/维度轴值/度量颜色图例双轴折线柱图通过双轴展示不同量级数据。组合图中折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。组合图中柱状图，可以比较各组数据之间的差别。类别轴/维度主轴值/度量副轴值/度量颜色图例台阶图台阶图是一种连续的数据分布的图形表现形式。类别轴/维度轴值/度量颜色图例饼状图饼状图饼图常用于展示数据中各项的大小与各项总和的比例。类别轴/维度轴值/度量颜色图例玫瑰图玫瑰图展示各项数据间的比较情况，多适用于枚举型数据。类别轴/维度轴值/度量颜色图例环形进度条环形进度条可以直观地展现出某个指标的进度。进度值/目标值/度量柱状图柱状图柱图用来比较各组数据之间的差别，并且可以显示一段时间内的数据变化情况。类别轴/维度轴值/度量颜色图例水平柱状图与柱状图类似，条形图用横向的展示方式来比较数据间的大小以及各项之间的差距。类别轴/维度轴值/度量颜色图例折线柱图折线柱图展示不同量级数据，支持常规线图柱图组合场景的数据展示。组合图中折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。组合图中柱状图，可以比较各组数据之间的差别。类别轴/维度轴值/度量颜色图例双轴折线柱图通过双轴展示不同量级数据。组合图中折线图可以显示随时间（根据常用比例设置）而变化的连续数据，因此非常适用于显示在相等时间间隔下数据的趋势。组合图中柱状图，可以比较各组数据之间的差别。类别轴/维度主轴值/度量副轴值/度量颜色图例

智能数据洞察 DATAARTS INSIGHT 大屏组件
数据湖探索 DLI-认证鉴权:Token认证

Token认证 Token在计算机系统中代表令牌（临时）的意思，拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头，从而通过身份认证，获得操作API的权限。 Token的有效期为24小时，需要使用一个Token鉴权时，可以先缓存起来，避免频繁调用。 Token可通过调用获取用户Token接口获取，调用本服务API需要project级别的Token，即调用获取用户Token接口时，请求body中auth.scope的取值需要选择project，如下所示。 { "auth": { "identity": { "methods": [ "password" ], "password": { "user": { "name": "username", "password": "********", "domain": { "name": "domainname" } } } }, "scope": { "project": { "name": "xxxxxxxx" } } } } 获取Token后，再调用其他接口时，您需要在请求消息头中添加“X-Auth-Token”，其值即为Token。例如Token值为“ABCDEFJ....”，则调用接口时将“X-Auth-Token: ABCDEFJ....”加到请求消息头即可，如下所示。 1 2 3 GET https://iam.cn-north-1.myhuaweicloud.com/v3/auth/projects Content-Type: application/json X-Auth-Token: ABCDEFJ....

数据湖探索 DLI
数据湖探索 DLI-认证鉴权:AK/SK认证

AK/SK认证 AK/SK认证就是使用AK/SK对请求进行签名，在请求时将签名信息添加到消息头，从而通过身份认证。 AK/SK签名认证方式仅支持消息体大小为12M以内的请求，12M以上的请求请使用Token认证。 AK(Access Key ID)：访问密钥ID。与私有访问密钥关联的唯一标识符；访问密钥ID和私有访问密钥一起使用，对请求进行加密签名。 SK(Secret Access Key)：与访问密钥ID结合使用的密钥，对请求进行加密签名，可标识发送方，并防止请求被修改。使用AK/SK认证时，您可以基于签名算法使用AK/SK对请求进行签名，也可以使用专门的签名SDK对请求进行签名。详细的签名方法和SDK使用方法请参见API签名指南。签名SDK只提供签名功能，与服务提供的SDK不同，使用时请注意。

数据湖探索 DLI
数据湖探索 DLI-返回结果:响应消息体

响应消息体响应消息体通常以结构化格式返回，与响应消息头中Content-type对应，传递除响应消息头之外的内容。对于获取用户Token接口，返回如下消息体。为篇幅起见，这里只展示部分内容。 1 2 3 4 5 6 7 8 9 10 11 12 { "token": { "expires_at": "2019-02-13T06:52:13.855000Z", "methods": [ "password" ], "catalog": [ { "endpoints": [ { "region_id": "az-01", ...... 当接口调用出错时，会返回错误码及错误信息说明，错误响应的Body体格式如下所示。 1 2 3 4 { "error_msg": "The format of message is error", "error_code": "AS.0001" } 其中，error_code表示错误码，error_msg表示错误描述信息。

数据湖探索 DLI 如何调用API
数据湖探索 DLI-产品优势:Serverless DLI

Serverless DLI DLI完全兼容Apache Spark、Apache Flink生态和接口，是集实时分析、离线分析、交互式分析为一体的Serverless大数据计算分析服务。线下应用可无缝平滑迁移上云，减少迁移工作量。采用批流融合高扩展性框架，为TB~EB级数据提供了更实时高效的多样性算力，可支撑更丰富的大数据处理需求。产品内核及架构深度优化，综合性能是传统MapReduce模型的百倍以上，SLA保障99.95%可用性。图1 DLI Serverless架构与传统自建Hadoop集群相比，Serverless架构的DLI还具有以下优势：表1 Serverless DLI与传统自建Hadoop集群对比的优势优势维度数据湖探索 DLI 自建Hadoop系统低成本资金成本按照实际扫描数据量或者CU时收费，可变成本，成本可节约50%。长期占用资源，资源浪费严重，成本高。弹性扩缩容能力基于容器化Kubernetes，具有极致的弹性伸缩能力。无。免运维运维成本即开即用，Serverless架构。需要较强的技术能力进行搭建、配置、运维。高可用具有跨AZ容灾能力。无高易用学习成本学习成本低，包含10年、上千个项目经验固化的调优参数。同时提供可视化智能调优界面。学习成本高，需要了解上百个调优参数。支持数据源云上：OBS、RDS、DWS、CSS、MongoDB、Redis。云下：自建数据库、MongoDB、Redis。云上：OBS。云下：HDFS。生态兼容 DLV、永洪BI、帆软。大数据生态工具。自定义镜像支持，满足业务多样性。无。工作流调度 DataArts Studio-DLF调度。自建大数据生态的调度工具，如Airflow。企业级多租户基于表的权限管理，可以精细化到列权限。基于文件的权限管理。高性能性能基于软硬件一体化的深度垂直优化。大数据开源版本性能。

数据湖探索 DLI
数据可视化 DLV-设置组件数据

设置组件数据本章节以线状组件为例，介绍组件的数据配置。图1 配置组件数据-线状图数据源类型选择图表的数据源类型，在数据区域可以查看或编辑相应的内容。单击数据区域右下角的按钮可以将数据区域窗口放大并弹出显示，以方便您查看和编辑数据。图2 数据区域系统提供如下数据源供用户选择：静态数据参考显示的数据示例格式，根据需求调整数据值，或粘贴已准备的JSON格式数据。数据示例如下： [ { "x": "01/01 09:17:56", "y": 375, "s": 1 }, { "x": "01/01 09:20:07", "y": 200, "s": 1 }, { "x": "01/01 09:28:07", "y": 25, "s": 1 }, { "x": "01/01 09:34:07", "y": 190, "s": 1 }, { "x": "01/01 09:40:07", "y": 90, "s": 2 }, { "x": "01/01 09:49:07", "y": 233, "s": 2 }, { "x": "01/01 09:55:07", "y": 150, "s": 2 }, { "x": "01/01 10:30:07", "y": 233, "s": 2 } ] API 通过API连接用户的数据源，数据格式参考静态数据中的示例。添加API数据源的详细介绍，请参见新建API数据连接。数据库、CSV文件、API网关、DAYU 数据服务、Elasticsearch、对象存储服务（OBS）如果选择使用此类数据源，您还需要选择相应的数据连接，数据连接的相关说明请参见新建数据连接。数据格式参考静态数据中的示例。数据映射系统为用户提供自定义字段映射关系的功能。图3 数据映射-线状图数据字段设置单击需要修改字段前的“”，在下拉列中对字段进行设置。图4 字段设置--饼状图系列名：设置所属系列的名称。颜色：设置对应字段在图表上的颜色显示。数据系列 s字段为数据系列字段，数据将根据s字段的值进行分组。如图3所示：s的值等于1的数据为一组，s的值等于2的数据为一组。新增数据系列单击s字段后方的，增加数据系列。配置数据系列单击数据系列前方的，在展开的页面中配置数据系列的如下样式。系列名：设置数据系列的名称。样式：设置数据系列的坐标点形状，可以选择圆形、矩形、三角形等。颜色：设置数据系列的曲线颜色。宽度：设置数据系列的曲线宽度。不透明：设置数据系列填充色的透明度。值标签：勾选则在图表中显示对应点的取值，并为取值设置显示的字号、颜色、字体粗细、位置。超链接：设置数据系列的超链接。链接方式：设置超链接的位置，可以选择新窗口、当前页、浮窗。自动更新请求勾选自动更新请求，并设置更新间隔后，数据将根据间隔时间自动轮询。预览结果单击“更新查询”，可以在数据源变更时手动更新组件数据。“预览结果”，显示选择的数据源的数据信息。数据请求超时时间为60s，请确保在网络延迟、SQL执行效率等因素影响下，数据请求可以在60s内返回结果。数据转换器将数据转换为符合展示需求数据，数据转换器的详细介绍，请参见使用数据转换器。父主题：管理组件

数据可视化 DLV 管理组件
资源编排服务 RFS-约束与限制:配额

配额资源编排对单个用户资源栈数量限定了配额，如下表所示。如果您需要添加更多的模板或创建更多的资源栈，请提交工单申请。配额的详细信息请参见关于配额。资源类型限制项限制值模板每个华为云账号允许创建的最大模板个数 100 模板名最大长度 128字符模板文件名称 255字节（一个中文字符=3个字节）模板URL地址长度 2048字节创建模板或版本接口参数template_uri传递文件内容最大值解压后1M 创建模板或版本接口参数template_body传递文件内容最大值 50 KB 资源栈每个华为云账号允许创建的最大资源栈个数 100 资源栈创建超时时间 6h 资源栈名称长度 128字符执行计划执行计划命名最大长度 255b 每个资源栈中允许创建的最大执行计划数量 100

资源编排服务 RFS 资源编排
虚拟私有云 VPC-添加弹性公网IP到共享带宽:约束与限制

约束与限制通过流量包套餐创建的云耀云服务器（HECS），系统绑定的弹性公网IP不支持加入到共享带宽。 EIP的线路类型与要加入的共享带宽的线路类型一致。不支持包年包月的弹性公网IP添加到共享带宽。包年包月的弹性公网IP添加到共享带宽，需要先转为按需计费模式。 “普通带宽”线路类型的共享带宽可添加动态BGP类型的EIP以及IPv6网卡，“优选BGP”线路类型的共享带宽可添加优选BGP类型的EIP以及IPv6网卡。通用可用区的共享带宽不支持添加边缘可用区的EIP，边缘可用区的共享带宽也不支持添加通用可用区的EIP。关于边缘可用区和普通可用区的区别请参考《智能边缘小站用户指南》。

虚拟私有云 VPC 共享带宽
对象存储服务 OBS-迁移HDFS数据至OBS:Distcp方式迁移

Distcp方式迁移 Hadoop Distcp（Distributed copy）主要是用于Hadoop文件系统内部或之间进行大规模数据复制的工具，它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。配置指南参考Hadoop对接OBS中hadoop-huaweicloud的安装和配置方法，完成OBS相关配置。使用示例以迁移HDFS上的“/data/sample”目录为例，执行以下命令查看HDFS文件系统上此目录下的文件与目录。 hadoop fs -ls hdfs:///data/sample 执行以下命令，将HDFS文件系统上“/data/sample”目录下所有文件与目录迁移到OBS桶“obs-bigdata-posix-bucket”的“data/sample”目录下。 hadoop distcp hdfs:///data/sample obs://obs-bigdata-posix-bucket/data/sample 执行以下命令，查看拷贝的文件。 hadoop fs -ls obs://obs-bigdata-posix-bucket/data/sample

对象存储服务 OBS 大数据场景下使用OBS实现存算分离
MAPREDUCE服务 MRS-MRS集群如何使用公网访问Presto:问题分析

问题分析登录MRS Manager上查看Presto全部配置，Coordinator角色配置： PRESTO_COORDINATOR_FLOAT_IP = 内网IP地址登录Coordinator角色所在主实例节点确认该地址为网卡：eth0:PRESTO。 Presto服务端口：非安全集群为7520；安全集群为7521；因此公网访问需要给对应的浮动网卡绑定公网地址，然后填写正确的JDBC URL即可 URL格式： jdbc:presto://example_ip:7520/Catalog/schema jdbc:presto://example_ip:7521/Catalog/schema

MAPREDUCE服务 MRS 使用Presto
MAPREDUCE服务 MRS-通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错:处理总结

处理总结将sqoop的lib下htrace-core-3.1.0-incubating.jar和hbase的lib下的metrics-core-2.2.0.jar，复制到“/opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/”下。修改jar包的文件权限为777和omm:ficommon。所有节点均采取以上操作，重新运行sqoop任务即可。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Hue创建Sqoop任务将数据从HBase导入HDFS时报错:处理步骤

处理步骤进入Sqoop的安装目录下查找文件。进入Sqoop节点的“/opt/Bigdata/MRS_1.9.2/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/lib”目录下，进行grep查找。进入Yarn WebUI界面，查看运行的任务的报错具体信息。将java.class.path复制出来，搜索htrace-core。复制jar包到如下位置。 cp /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/lib/htrace-core-3.1.0-incubating.jar /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/ 修改权限。 chmod 777 htrace-core-3.1.0-incubating.jar （真实复制的jar包） chown omm:ficommon htrace-core-3.1.0-incubating.jar （真实复制的jar包）查看hosts文件，对其他所有节点进行同样的复制jar包操作。重新运行sqoop任务，产生报错如下：去HBase的安装目录下查找文件。进入HBase的lib目录下，进行grep查找。继续复制jar包。 cp /opt/Bigdata/MRS_1.9.2/install/FusionInsight-HBase-1.3.1/hbase/lib/metrics-core-2.2.0.jar /opt/Bigdata/MRS_1.9.2/install/FusionInsight-Hadoop-2.8.3/hadoop/share/hadoop/common/lib/ 修改文件权限。 chmod 777 metrics-core-2.2.0.jar （真实复制的jar包） chown omm:ficommon metrics-core-2.2.0.jar（真实复制的jar包）查看hosts文件，对其他所有节点进行同样的复制jar包操作。继续运行sqoop任务，成功。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-提交Storm拓扑失败排查思路:解决办法

解决办法认证异常。登录客户端节点，进入客户端目录。执行以下命令重新提交任务。（业务jar包和Topology根据实际情况替换） source bigdata_env kinit 用户名 storm jar storm-starter-topologies-0.10.0.jar storm.starter.WordCountTopology test 拓扑包异常。排查业务jar，将业务jar中storm.yaml文件删除，重新提交任务。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-提交Spark任务时报错“ClassNotFoundException”:问题现象

问题现象运行Spark任务报找不到指定的类“ClassNotFoundException”。详细报错内容如下： Exception encountered | org.apache.spark.internal.Logging$class.logError(Logging.scala:91) org.apache.hadoop.hbase.DoNotRetryIOException: java.lang.ClassNotFoundException: org.apache.phoenix.filter.SingleCQKeyValueComparisonFilter

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Sqoop迁移数据库数据时报错:用户问题

用户问题 MRS Sqoop迁移数据库数据报错如下： Communications link failure; The driver has not received any packets from the server；源端为DWS数据库时报错如下： got exception running sqoop .java.lang.Runtime.Exception, could not load db driver class。图1 Sqoop迁移数据库数据报错图2 源端为DWS时报错

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Sqoop迁移数据库数据时报错:处理步骤

处理步骤检查源端数据库端口对集群节点均放通。若使用EIP公网通信，那么集群节点均需要绑定公网，尤其是分析节点，必须绑定公网才能保证作业正常运行。 sqoop实例一般分布在Master节点，但作业真正运行在分析节点，因此创建数据库连接，是和Master节点通信，作业是通过Yarn任务分发到分析节点执行。检查Sqoop实例安装目录下是否放置数据库驱动jar包，并保证jar包路径正确，文件权限及属主属组正确；配置文件正确配置；保证这些后需要重启Sqoop实例后才可以正常加载驱动。 MRS 3.X集群驱动路径为：/opt/Bigdata/FusionInsight_Current/1_xx_LoaderServer/install/FusionInsight-Sqoop-1.99.3/server/webapps/loader/WEB-INF/ext-lib/ MRS3.X之前版本集群驱动路径为：/opt/Bigdata/MRS_XXX/install/FusionInsight-Sqoop-1.99.7/FusionInsight-Sqoop-1.99.7/server/jdbc/ 3.x之前版本需要修改配置文件。如果是命令行提交作业，建议指定--driver参数。如源端是DWS时命令行加：--driver com.xxx.gauss200.jdbc.Driver ，如下图。图3 源端是dws时driver参数其他数据库根据实际情况填写--driver参数。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-通过Yarn WebUI查看队列信息时提示“ERROR 500”错误:问题背景与现象

问题背景与现象在Yarn使用Capacity调度器时，单击Yarn WebUI页面的队列名称时，系统上报“ERROR 500”的错误。 HTTP ERROR 500 javax.servlet.ServletException: javax.servlet.ServletException: java.lang.IllegalArgu mentException: Illegal character in queryat index 81: https://XXX:20026/Yarn/ResourceManager/21/cluster/scheduler? openQueues= ^default$

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Storm业务拓扑配置GC参数不生效:问题背景与现象

问题背景与现象业务拓扑代码中配置参数topology.worker.childopts不生效，关键日志如下： [main] INFO b.s.StormSubmitter - Uploading topology jar /opt/jar/example.jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar Start uploading file '/opt/jar/example.jar' to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar' (65574612 bytes) [==================================================] 65574612 / 65574612 File '/opt/jar/example.jar' uploaded to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar' (65574612 bytes) [main] INFO b.s.StormSubmitter - Successfully uploaded topology jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-8d3b778d-69ea-4fbe-ba88-01aa2036d753.jar [main] INFO b.s.StormSubmitter - Submitting topology word-count in distributed mode with conf {"topology.worker.childopts":"-Xmx4096m","storm.zookeeper.topology.auth.scheme":"digest","storm.zookeeper.topology.auth.payload":"-5915065013522446406:-6421330379815193999","topology.workers":1} [main] INFO b.s.StormSubmitter - Finished submitting topology: word-count 通过ps -ef | grep worker命令查看worker进程信息如下：

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Storm业务拓扑配置GC参数不生效:解决办法

解决办法如果想要修改拓扑的JVM参数，可以在命令中直接修改topology.worker.gc.childopts这个参数或者在服务端修改该参数，当topology.worker.gc.childopts为 "-Xms4096m -Xmx4096m -XX:+UseG1GC -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M"时，效果如下： [main-SendThread(10.7.61.88:2181)] INFO o.a.s.s.o.a.z.ClientCnxn - Socket connection established, initiating session, client: /10.7.61.88:44694, server: 10.7.61.88/10.7.61.88:2181 [main-SendThread(10.7.61.88:2181)] INFO o.a.s.s.o.a.z.ClientCnxn - Session establishment complete on server 10.7.61.88/10.7.61.88:2181, sessionid = 0x16037a6e5f092575, negotiated timeout = 40000 [main-EventThread] INFO o.a.s.s.o.a.c.f.s.ConnectionStateManager - State change: CONNECTED [main] INFO b.s.u.StormBoundedExponentialBackoffRetry - The baseSleepTimeMs [1000] the maxSleepTimeMs [1000] the maxRetries [1] [main] INFO o.a.s.s.o.a.z.Login - successfully logged in. [main-EventThread] INFO o.a.s.s.o.a.z.ClientCnxn - EventThread shut down for session: 0x16037a6e5f092575 [main] INFO o.a.s.s.o.a.z.ZooKeeper - Session: 0x16037a6e5f092575 closed [main] INFO b.s.StormSubmitter - Uploading topology jar /opt/jar/example.jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar Start uploading file '/opt/jar/example.jar' to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar' (74143745 bytes) [==================================================] 74143745 / 74143745 File '/opt/jar/example.jar' uploaded to '/srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar' (74143745 bytes) [main] INFO b.s.StormSubmitter - Successfully uploaded topology jar to assigned location: /srv/BigData/streaming/stormdir/nimbus/inbox/stormjar-86855b6b-133e-478d-b415-fa96e63e553f.jar [main] INFO b.s.StormSubmitter - Submitting topology word-count in distributed mode with conf {"storm.zookeeper.topology.auth.scheme":"digest","storm.zookeeper.topology.auth.payload":"-7360002804241426074:-6868950379453400421","topology.worker.gc.childopts":"-Xms4096m -Xmx4096m -XX:+UseG1GC -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=10 -XX:GCLogFileSize=1M","topology.workers":1} [main] INFO b.s.StormSubmitter - Finished submitting topology: word-count 通过ps -ef | grep worker命令查看worker进程信息如下：

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-提交Spark任务时提示参数格式错误:处理步骤

处理步骤检查用户执行命令./bin/spark-submit --class cn.interf.Test --master yarn-client 客户端安装目录/Spark/spark1-1.0-SNAPSHOT.jar;，排查是否引入了非法字符。如果是，修改非法字符，重新执行命令。重新执行命令后，发生其他错误，查看该jar包的属主属组信息，发现全为root。修改jar包的属主属组为omm:wheel，重新执行成功。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-提交Spark任务时Driver端提示运行内存超限:原因分析

原因分析在Driver日志中直接打印申请的executor memory超过集群限制。 ... INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (6144 MB per container) ... ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory (10240+1024 MB) is above the max threshold (6144 MB) of this cluster! Spark任务提交至Yarn上面，运行task的executor使用的资源受yarn的管理。从报错信息可看出，用户申请启动executor时，指定10G的内存，超出了Yarn设置的每个container的最大内存的限制，导致任务无法启动。

MAPREDUCE服务 MRS 使用Spark
MAPREDUCE服务 MRS-通过Yarn WebUI页面查看作业日志提示“ERROR 500”错误:处理步骤

处理步骤以root用户登录安装了Spark2x/Spark客户端的节点。执行以下命令编辑文件。 vim $SPARK_HOME/conf/log4j-executor.properties 调小“log4j.appender.sparklog.MaxFileSize”参数值（表示生成一份日志文件的最大存储大小，默认为50MB），例如修改为“20MB”。调小“log4j.appender.sparklog.MaxBackupIndex”参数值（表示滚动保存的文件数量，最大为10个文件，达到第11个覆盖第一个生成的文件），例如修改为“5”。保存文件。重新提交作业，作业运行正常。

MAPREDUCE服务 MRS 使用Yarn
MAPREDUCE服务 MRS-提交Storm拓扑后Worker日志为空:参考信息

参考信息 nimbus.task.launch.secs和supervisor.worker.start.timeout.secs这两个参数分别代表nimbus端和supervisor端对于拓扑启动的超时容忍时间，一般nimbus.task.launch.secs的值要大于等于supervisor.worker.start.timeout.secs的值（建议相等或略大，如果超出太多会影响任务重分配的效率）。 nimbus.task.launch.secs：nimbus在超过该参数配置的时间内没有收到拓扑的task发的心跳时，会将该拓扑重新分配（分配给别的supervisor），同时会刷新zk中的任务信息，supervisor读到zk中的任务信息并且与自己当前所启动的拓扑进行比较，如果存在拓扑已经不属于自己，那么则会删除该拓扑的元数据，也就是/srv/Bigdata/streaming_data/stormdir/supervisor/stormdist/{worker-id}目录。 supervisor.worker.start.timeout.secs：supervisor启动worker后，在该参数配置的时间内没有收到worker的心跳时，supervisor会主动停掉worker，等待worker的重新调度，一般在业务启动时间较长时适当增加该参数的值，保证worker能启动成功。如果supervisor.worker.start.timeout.secs配置的值比nimbus.task.launch.secs的值大，那么则会出现supervisor的容忍时间没到，仍然继续让worker启动，而nimbus却认定该业务启动超时，将该业务分配给了其他主机，这时supervisor的后台线程发现任务不一致，删除了拓扑的元数据，导致接下来worker在启动过程中要读取stormconf.ser时，发现该文件已经不存在了，就会抛出FileNotFoundException。 nimbus.task.timeout.secs和supervisor.worker.timeout.secs这两个参数则分别代表nimbus端和supervisor端对于拓扑运行过程中心跳上报的超时容忍时间，一般nimbus.task.timeout.secs的值要大于等于supervisor.worker.timeout.secs的值（建议相等或略大），原理同上。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-提交Storm拓扑后Worker日志为空:可能原因

可能原因 Worker进程启动失败，触发Nimbus重新分配任务，在其他Supervisor上启动Worker。由于Worker启动失败后会继续重启，导致Worker节点在一直变化，且Worker日志内容为空。Worker进程启动失败的可能原因有两个：提交的Jar包中包含“storm.yaml”文件。 Storm规定，每个“classpath”中只能包含一个“storm.yaml”文件，如果多于一个那么就会产生异常。使用Storm客户端提交拓扑，由于客户端“classpath”配置和Eclipse远程提交方式“classpath”不一样，客户端会自动加载用户的Jar包到“classpath”，从而使“classpath”中存在两个“storm.yaml”文件。 Worker进程初始化时间较长，超过Storm集群设置Worker启动超时时间，导致Worker被Kill从而一直进行重分配。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Hive启用Ranger鉴权后，在Hue页面能查看到没有权限的表和库:处理步骤

处理步骤登录Ranger WebUI界面。在“Service Manager”区域内，单击Hive组件名称，进入Hive组件安全访问策略列表页面。分别单击“all - database”和“default database tables columns”策略所在行的按钮。删除“public”组策略。图1 all - database策略图2 default database tables columns策略在Hive组件安全访问策略列表页面，单击“Add New Policy”为相关用户或者用户组添加资源访问策略，具体请参考配置组件权限策略。

MAPREDUCE服务 MRS 使用Ranger
MAPREDUCE服务 MRS-Hive启用Ranger鉴权后，在Hue页面能查看到没有权限的表和库:原因分析

原因分析 Hive启用Ranger鉴权后，默认的Hive策略中有2个关于database的public组策略，所有用户都属于public组，默认给public组配有default数据库的创表和所有其他数据库的create权限，因此默认所有的用户都有show databases和show tables的权限，如果不想让某些用户有show databases和show tables权限，可在Ranger WEBUI中删除该默认public组策略，并赋予需要查看的用户权限。

MAPREDUCE服务 MRS 使用Ranger
MAPREDUCE服务 MRS-使用jstack命令查看进程堆栈提示“well-known file is not secure”:原因分析

原因分析由于执行命令的用户与当前查看pid信息的进程提交用户不一致导致。 Storm引入区分用户执行任务特性，在启动worker进程时将给进程的uid和gid改为提交用户和ficommon，目的是为了logviewer可以访问到worker进程的日志同时日志文件只开放权限到640。这样会导致切换到提交用户后对Worker进程执行jstack和jmap等命令执行失败，原因是提交用户的默认gid并不是ficommon，需要通过ldap命令修改提交用户的gid为9998（ficommon）才可执行。

MAPREDUCE服务 MRS 使用Storm

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！

华为云用户手册

7*24

备案

专业服务

退订

建议反馈

售前咨询热线