华为云用户手册

  • CarbonData关键技术和优势 快速查询响应:高性能查询是CarbonData关键技术的优势之一。CarbonData查询速度大约是Spark SQL查询的10倍。CarbonData使用的专用数据格式围绕高性能查询进行设计,其中包括多种索引技术和多次的Push down优化,从而对TB级数据查询进行最快响应。 高效率数据压缩:CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%~80%数据存储空间,很大程度上节省硬件存储成本。
  • 问题 为什么日期类型的字段作为过滤条件时匹配'2016-6-30'时没有查询结果,匹配'2016-06-30'时有查询结果。 如下图所示:“select count(*)from trxfintrx2012 a where trx_dte_par='2016-6-30'”,其中trx_dte_par为日期类型的字段,当过滤条件为“where trx_dte_par='2016-6-30'”时没有查询结果,当过滤条件为“where trx_dte_par='2016-06-30'”时有查询结果。
  • 查看Topic详情 进入KafkaUI,请参考访问KafkaUI。 单击“Topics”,进入Topic管理页面。 在“Topic List”栏可查看当前集群已创建的Topic的名称、状态、分区数量、创建时间和副本个数等信息。 单击Topic名称可进入Topic详情页面。在该页面可查看Topic与分区的详细信息。 在“Producer Message”栏可根据业务需求选择“Day”、“Week”、“Month”不同时段查看此Topic生产数据条数。
  • 操作场景 HDFS集群可能出现DataNode节点间磁盘利用率不平衡的情况,比如集群中添加新数据节点的场景。如果HDFS出现数据不平衡的状况,可能导致多种问题,比如MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率或节点磁盘无法利用等等。所以MRS集群管理员需要定期检查并保持DataNode数据平衡。 HDFS提供了一个容量均衡程序Balancer。通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使各DataNode磁盘使用率与HDFS集群磁盘使用率的偏差不超过阈值。图1和图2分别是Balance前后DataNode的磁盘使用率变化。 图1 执行均衡操作前DataNode的磁盘使用率 图2 执行均衡操作后DataNode的磁盘使用率 均衡操作时间估算受两个因素影响: 需要迁移的总数据量: 每个DataNode节点的数据量应大于(平均使用率-阈值)*平均数据量,小于(平均使用率+阈值)*平均数据量。如果实际数据量小于最小值或大于最大值即存在不平衡,系统选择所有DataNode节点中偏差最多的数据量作为迁移的总数据量。 Balancer的迁移是按迭代(iteration)方式串行顺序处理的,每个iteration迁移数据量不超过10GB,每个iteration重新计算使用率的情况。 因此针对集群情况,可以大概估算每个iteration耗费的时间(可以通过执行Balancer的日志观察到每次iteration的时间),并用总数据量除以10GB估算任务执行时间。 由于按iteration处理,Balancer可以随时启动或者停止。
  • 回答 Kafka重启成功后应用会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(如图2所示),尽管UI界面上显示读取的数据个数为“0”,但实际上这部分数据在补的RDD中进行了处理,因此,不存在数据丢失。 Kafka重启时间段的数据处理机制如下。 Spark Streaming应用使用了state函数(例如:updateStateByKey),在Kafka重启成功后,Spark Streaming应用生成2017/05/11 10:58:00 batch任务时,会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(Kafka重启前Kafka上未读取完的数据,属于2017/05/11 10:57:00之前的batch),如图2所示。 图2 重启时间段缺失数据处理机制
  • 问题 在Spark Streaming应用执行过程中重启Kafka时,应用无法从Kafka获取topic offset,从而导致生成Job失败。如图1所示,其中2017/05/11 10:57:00~2017/05/11 10:58:00为Kafka重启时间段。2017/05/11 10:58:00重启成功后对应的“Input Size”的值显示为“0 records”。 图1 Web UI界面部分batch time对应Input Size为0 records
  • 创建ClickHouse租户 登录FusionInsight Manager,单击“租户资源”。 单击,打开添加租户的配置页面,参见表1为租户配置属性。 表1 租户参数一览 参数名 描述 集群 选择要创建租户的集群。 名称 指定当前租户的名称,长度为3~50个字符,可包含数字、字母或下划线(_)。 根据业务需求规划租户的名称,不得与当前集群中已有的角色、HDFS目录或者Yarn队列重名。 租户资源类型 选择“叶子租户资源” 说明: 创建ClickHouse租户,租户资源类型只能选择“叶子租户”。 计算资源 为当前租户选择动态计算资源。 选择“Yarn”时,系统自动在Yarn中以租户名称创建任务队列。 不选择“Yarn”时,系统不会自动创建任务队列。 配置模式 计算资源参数配置模式。 选择“基础”时,只需配置“默认资源池容量 (%)”参数即可。 选择“高级”时,可手动配置资源分配权重,租户的最小/最大/预留资源。 默认资源池容量 (%) 配置当前租户在默认资源池中使用的计算资源百分比,取值范围0~100%。 权重 资源分配权重,取值范围从0到100。 最小资源 保证租户资源能获得的资源(有抢占支持)。取值可以是父租户资源的百分比或绝对值。当租户资源作业量比较少时,资源会自动借给其他租户资源,当租户资源能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源 租户资源最多能使用的资源,租户资源不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。 预留资源 租户资源预留资源。即使租户资源内没有作业,预留的资源也不能给别的租户资源使用。取值可以是父租户资源的百分比或绝对值。 存储资源 为当前租户选择存储资源。 选择“HDFS”时,系统将分配存储资源。 不选择“HDFS”时,系统不会分配存储资源。 文件\目录数上限 配置文件和目录数量配额。 存储空间配额 配置当前租户使用的HDFS存储空间配额。 取值范围:当存储空间配额单位设置为MB时,范围为1~8796093022208。当存储空间配额单位设置为GB时,范围为1~8589934592。 此参数值表示租户可使用的HDFS存储空间上限,不代表一定使用了这么多空间。 如果参数值大于HDFS物理磁盘大小,实际最多使用全部的HDFS物理磁盘空间。 存储路径 配置租户在HDFS中的存储目录。 系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”,默认HDFS存储目录为“/tenant/ta1”。 第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。 服务 “服务”选择“ClickHouse”。 关联类型”:当“服务”选择“ClickHouse”时,关联类型”只支持“共享”。 “关联逻辑集群”:如果ClickHouse没有开启逻辑集群,则默认关联default_cluster,如果已经开启逻辑集群,则按需选择需要关联的逻辑集群。 “CPU优先级”:CPU优先级取值范围为-20~19,该值关联OS的NICE值,取值越小,CPU优先级越高。如需开启CPU优先级请参考开启ClickHouse租户CPU优先级配置。 “内存”:内存限制为百分比,如该值设置为80,则当前租户可使用的内存总额为:服务可使用内存 * 80%。 描述 配置当前租户的描述信息。 单击“确定”,等待界面提示租户创建成功。 ClickHouse租户创建完成后,可以在“租户资源”中查看并修改租户资源。 在FusionInsight Manager页面,选择“租户资源”,在租户列表中选中需要查看的ClickHouse租户,查看租户概述和资源配额。 选择“资源”,单击“资源详情”后的,对租户资源进行修改。 修改完成后,单击“确定”,返回“资源”页面,展示修改后的资源详情。 修改ClickHouse租户资源配额后,需要重新登录ClickHouse客户端才能生效。
  • 为已有的租户关联ClickHouse服务 在FusionInsight Manager页面,选择“租户资源”,选中需要操作的租户,选择“服务关联”页签,单击“关联服务”,具体参数如下表所示: 参数 描述 服务 选择“ClickHouse” 关联类型 选择“共享” 关联逻辑集群 如果ClickHouse没有开启逻辑集群,则默认关联default_cluster,如果已经开启逻辑集群,则按需选择需要关联的逻辑集群 CPU优先级 CPU优先级取值范围为-20~19,该值关联OS的NICE值,取值越小,CPU优先级越高。如需开启CPU优先级请参考开启ClickHouse租户CPU优先级配置 内存 内存限制为百分比,如该值设置为80,则当前租户可使用的内存总额为:服务可使用内存 * 80% 在弹出的页签中按照业务需求进行租户配置,单击“确定”,租户关联服务。 如果需要解除关联ClickHouse服务: 在FusionInsight Manager页面,选择“租户资源”,选中需要操作的租户,在“操作”列单击“删除”,在弹窗中单击“确定”,解除关联ClickHouse服务。 当租户解除关联ClickHouse服务后,该租户将不再拥有ClickHouse逻辑集群的权限。同时绑定该租户的用户也不再拥有ClickHouse逻辑集群的权限。
  • 操作步骤 访问Hue WebUI,请参考访问Hue的WebUI。 在左侧导航栏单击编辑器,然后选择“Hive”。 在“Database”右侧下拉列表选择一个Hive中的数据库,默认数据库为“default”。 系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。 单击指定的表名,可以显示表中所有的列。 在HiveQL语句编辑区输入HiveQL语句。 create table hue_table(id int,name string,company string) row format delimited fields terminated by ',' stored as textfile; 单击 开始执行HiveQL语句。 图1 执行语句 在命令输入框内输入show tables;,单击按钮,查看“结果”中有5创建的表hue_table。
  • 回答 场景一: add jar语句只会将jar加载到当前连接的JDBCServer的jarClassLoader,不同JDBCServer不会共用。JDBCServer重启后会创建新的jarClassLoader,所以需要重新add jar。 添加jar包有两种方式:可以在启动spark-sql的时候添加jar包,如spark-sql --jars /opt/test/two_udfs.jar;也可在spark-sql启动后再添加jar包,如add jar /opt/test/two_udfs.jar。add jar所指定的路径可以是本地路径也可以是HDFS上的路径。
  • 简介 Loader是实现MRS与关系型数据库、文件系统之间交换数据和文件的ETL工具,支持将数据或者文件从MRS系统中导出到关系型数据库或文件系统中。 Loader支持如下数据导出方式: 从HDFS/OBS中导出数据到SFTP服务器 从HDFS/OBS中导出数据到关系型数据库 从HBase中导出数据到SFTP服务器 从HBase中导出数据到关系型数据库 从Phoenix表导出数据到SFTP服务器 从Phoenix表导出数据到关系型数据库 从Hive中导出数据到SFTP服务器 从Hive中导出数据到关系数据库 从同一集群内HBase导出数据到HDFS/OBS MRS与外部数据源交换数据和文件时需要连接数据源。系统提供以下连接器,用于配置不同类型数据源的连接参数: generic-jdbc-connector:关系型数据库连接器。 hdfs-connector:HDFS数据源连接器。 oracle-connector:Oracle数据库专用连接器,使用row_id作为分区列,相对generic-jdbc-connector来说,Map任务分区更均匀,并且不依赖区分列是否有创建索引。 mysql-fastpath-connector:MySQL数据库专用连接器,使用MySQL的mysqldump和mysqlimport工具进行数据的导入导出,相对generic-jdbc-connector来说,导入导出速度更快。 sftp-connector:SFTP数据源连接器。 oracle-partition-connector:支持Oracle分区特性的连接器,专门对Oracle分区表的导入导出进行优化。 建议将SFTP服务器和数据库服务器与Loader部署在独立的子网中,以保障数据安全地导出。 与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专用数据库连接器(oracle-connector、oracle-partition-connector、mysql-fastpath-connector),专用数据库连接器特别针对具体数据库类型进行优化,相对通用数据库连接器来说,导出、导入速度更快。 使用mysql-fastpath-connector时,要求在NodeManager节点上有MySQL的mysqldump和mysqlimport命令,并且此两个命令所属MySQL客户端版本与MySQL服务器版本兼容,如果没有这两个命令或版本不兼容,请参考http://dev.mysql.com/doc/refman/5.7/en/linux-installation-rpm.html,安装MySQL client applications and tools。 使用oracle-connector时,要求给连接用户赋予如下系统表或者视图的select权限: dba_tab_partitions、dba_constraints、dba_tables 、dba_segments 、v$version、dba_objects、v$instance、dba_extents、 dba_tab_partitions、dba_tab_subpartitions。 使用oracle-partition-connector时,要求给连接用户赋予如下系统表的select权限:dba_objects、dba_extents。
  • 回答 查询 S3 中的数据: select * from s3(path [,aws_access_key_id, aws_secret_access_key] [,format] [,structure]) 参数说明: path:带有文件路径的 Bucket url。 format:文件的格式。 aws_access_key_id, aws_secret_access_key:AWS 账号的长期凭证,可以使用凭证来对请求进行认证,参数是可选的。如果没有指定凭据,将从配置文件中读取凭据。 structure:表结构。 ClickHouse 从 S3 中获取数据创建表: CREATE TABLE test1_s3 (name String, value UInt32) ENGINE = S3(path, [aws_access_key_id, aws_secret_access_key,] format) 查看创建好的表: select * from test1_s3
  • 回答 问题根因: 上述两个问题是由于多主实例模式或者多租户模式下,使用spark-beeline通过add jar的方式创建function,此function在各个JDBCServer实例之间是不可见的。执行drop function时,如果该session连接的JDBCServer实例不是创建function的JDBCServer实例,则在该session中找不到该function,而且hive默认将“hive.exec.drop.ignorenonexistent”设置为“true”,即当function不存在时,删除function操作不会报错,这样就表现出了用户没有drop function的权限,执行drop时却没有报错,让用户误以为drop成功;但重新起session时又连到创建function的JDBCServer上,因此执行show function,function仍然存在。该行为是hive的社区行为。 修改方案: 在执行drop function命令之前先执行add jar命令,则该function在有权限的情况下才能drop成功,且drop成功之后不会出现show function仍然存在的现象。
  • 问题 问题一: 用户没有drop function的权限,能够drop成功。具体场景如下: 在FusionInsight Manager页面上添加user1用户,给予用户admin权限,执行下列操作: set role admin;add jar /home/smartcare-udf-0.0.1-SNAPSHOT.jar;create database db4;use db4;create function f11 as 'com.huaweixxx.smartcare.dac.hive.udf.UDFArrayGreaterEqual';create function f12 as 'com.huaweixxx.smartcare.dac.hive.udf.UDFArrayGreaterEqual'; 修改user1用户,取消admin权限,执行下列操作: drop functiondb4.f11; 结果显示drop成功,如图1所示。 图1 用户没有权限却drop成功结果 问题二: 用户drop function成功,show function的时候,function仍然存在。具体场景如下: 在FusionInsight Manager页面上添加user1用户,给予用户admin权限,进入spark-beeline执行下列操作: set role admin;create database db2;use db2;add jar /home/smartcare-udf-0.0.1-SNAPSHOT.jar;create function f11 as 'com.huaweixxx.smartcare.dac.hive.udf.UDFArrayGreaterEqual';create function f12 as 'com.huaweixxx.smartcare.dac.hive.udf.UDFArrayGreaterEqual'; 退出后再进入spark-beeline执行下列操作: set role admin;use db2;drop function db2.f11; 退出后再进入spark-beeline执行下列操作: use db2;show functions; 结果显示,被drop的function仍然存在,如图2所示。 图2 执行show functions操作后的结果
  • 集群外节点安装客户端 根据在集群外节点安装客户端前提条件,创建一个满足要求的弹性云服务器。 执行ntp时间同步,使集群外节点的时间与MRS集群时间同步。 执行vi /etc/ntp.conf命令编辑NTP客户端配置文件,并增加MRS集群中Master节点的IP并注释掉其他server的地址。 server master1_ip prefer server master2_ip 图2 增加Master节点的IP 执行service ntpd stop命令关闭NTP服务。 执行如下命令,手动同步一次时间: /usr/sbin/ntpdate 192.168.10.8 192.168.10.8为主Master节点的IP地址。 执行service ntpd start或systemctl restart ntpd命令启动NTP服务。 执行ntpstat命令查看时间同步结果。 参考以下步骤,从FusionInsight Manager下载集群客户端软件包并复制到ECS节点后安装客户端。 访问集群Manager,参考集群内节点安装客户端下载集群客户端到主管理节点的指定目录。 使用root用户登录主管理节点,执行以下命令复制客户端安装包到待安装客户端的节点: scp -p /tmp/FusionInsight-Client/FusionInsight_Cluster_1_Services_Client.tar 待安装客户端节点的IP地址:/tmp 使用待安装客户端的用户登录待安装客户端节点。 执行以下命令安装客户端,如果当前用户无客户端软件包以及客户端安装目录的操作权限,需使用root用户进行赋权: cd /tmp tar -xvf FusionInsight_Cluster_1_Services_Client.tar tar -xvf FusionInsight_Cluster_1_Services_ClientConfig.tar cd FusionInsight_Cluster_1_Services_ClientConfig ./install.sh /opt/client 执行以下命令,切换到客户端目录并配置环境变量: cd /opt/client source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinitMRS集群用户 例如,kinit admin。 直接执行组件的客户端命令。 例如使用HDFS客户端命令查看HDFS根目录文件,执行hdfs dfs -ls /。
  • 使用客户端 在已安装客户端的节点,执行sudo su - omm命令切换用户。执行以下命令切换到客户端目录: cd /opt/client 执行以下命令配置环境变量: source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinitMRS集群用户 例如,kinit admin。 启用Kerberos认证的MRS集群默认创建“admin”用户账号,用于集群管理员维护集群。 直接执行组件的客户端命令。 例如:使用HDFS客户端命令查看HDFS根目录文件,执行hdfs dfs -ls /。
  • 在集群外节点安装客户端前提条件 已准备一个Linux弹性云服务器,主机操作系统及版本建议参见表1。 表1 参考列表 CPU架构 操作系统 支持的版本号 x86计算 Euler EulerOS 2.5 SUSE SUSE Linux Enterprise Server 12 SP4(SUSE 12.4) Red Hat Red Hat-7.5-x86_64(Red Hat 7.5) CentOS CentOS-7.6版本(CentOS 7.6) 鲲鹏计算(ARM) Euler EulerOS 2.8 CentOS CentOS-7.6版本(CentOS 7.6) 同时为弹性云服务分配足够的磁盘空间,例如“40GB”。 弹性云服务器的VPC需要与MRS集群在同一个VPC中。 弹性云服务器的安全组需要和MRS集群Master节点的安全组相同。 弹性云服务器操作系统已安装NTP服务,且NTP服务运行正常。 如果未安装,在配置了yum源的情况下,可执行yum install ntp -y命令自行安装。 需要允许用户使用密码方式登录Linux弹性云服务器(SSH方式)。 MRS集群安全组入方向将所有端口对客户端节点放开,具体操作请参考添加安全组规则。
  • 前提条件 Doris服务运行正常。 角色名称不能为operator和admin。 集群已启用Kerberos认证(安全模式)时,Doris赋权成功后,权限生效时间大约为2分钟。 仅MRS 3.3.0及之后版本的集群支持通过FusionInsight Manager创建角色进行赋权,如果集群为MRS 3.3.0之前的版本,无论是否开启Kerberos认证,都需要通过root用户(默认密码为空)来连接数据库。
  • 回答 Spark的表管理层次如图1所示,最底层是Spark的临时表,存储着使用DataSource方式的临时表,在这一个层面中没有数据库的概念,因此对于这种类型表,表名在各个数据库中都是可见的。 上层为Hive的MetaStore,该层有了各个DB之分。在每个DB中,又有Hive的临时表与Hive的持久化表,因此在Spark中允许三个层次的同名数据表。 查询的时候,Spark SQL优先查看是否有Spark的临时表,再查找当前DB的Hive临时表,最后查找当前DB的Hive持久化表。 图1 Spark表管理层次 当Session退出时,用户操作相关的临时表将自动删除。建议用户不要手动删除临时表。 删除临时表时,其优先级与查询相同,从高到低为Spark临时表、Hive临时表、Hive持久化表。如果想直接删除Hive表,不删除Spark临时表,您可以直接使用drop table DbName.TableName命令。
  • 编辑器使用介绍 访问Hue WebUI,请参考访问Hue的WebUI。 在左侧导航栏单击,然后选择“Workflow”。 支持创建Workflow、计划和Bundles的操作。支持提交运行、共享、复制和导出已创建的应用。 每个Workflow可以包含一个或多个作业,形成完整的工作流,用于实现指定的业务。 创建Workflow时,可直接在Hue的编辑器设计作业,并添加到Workflow中。 每个计划可定义一个时间触发器,用于定时触发执行一个指定的Workflow。不支持多个Workflow。 每个Bundles可定义一个集合,用于触发执行多个计划,使不同Workflow批量执行。
  • 浮点函数 infinity() → double 返回表示正无穷大的常数。 select infinity();-- Infinity is_finite(x) → boolean 判断x是否有限值。 select is_finite(infinity());-- false select is_finite(50000);--true is_infinite(x) → boolean 判断x是否无穷大。 select is_infinite(infinity());-- true select is_infinite(50000);--false is_nan(x) → boolean 判断x是否非数字。 --输入的值必须为double类型 select is_nan(null); -- NULL select is_nan(nan()); -- true select is_nan(45);-- false nan() → double 返回表示非数字的常数。 select nan(); -- NaN
  • 三角函数 所有三角函数的参数都是以弧度表示。参考单位转换函数degrees()和radians()。 acos(x) → double 求反余弦值。 SELECT acos(-1);-- 3.14159265358979 asin(x) → double 求反正弦值。 SELECT asin(0.5);-- 0.5235987755982989 atan(x) → double 求x的反正切值。 SELECT atan(1);-- 0.7853981633974483 atan2(y, x) → double 返回y/x的反正切值。 SELECT atan2(2,1);-- 1.1071487177940904 cos(x) → double 返回x的余弦值。 SELECT cos(-3.1415927);-- -0.9999999999999989 cosh(x) → double 返回x的双曲余弦值。 SELECT cosh(3.1415967);-- 11.592000006553231 sin(x) → double 求x的正弦值。 SELECT sin(1.57079);-- 0.9999999999799858 tan(x) → double 求x的正切值。 SELECT tan(20);-- 2.23716094422474 tanh(x) → double 求x双曲正切值。 select tanh(3.1415927);-- 0.9962720765661324
  • OMA运行状态 指标项名称:OMA运行状态 指标项含义:检查OMA的运行状态,状态结果包括运行和停止两种状态,如果OMA状态为停止,则认为不健康。 恢复指导: 登录检查结果不健康的节点,然后执行su - omm切换到omm用户。 执行${OMA_PATH}/restart_oma_app,手工启动OMA,然后重新检查。如果检查结果仍然不健康,则执行3。 如果手工启动OMA无法恢复,建议查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”。 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
  • 进程运行时间 指标项名称:NodeAgent运行时间、Controller运行时间和Tomcat运行时间 指标项含义:检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时(即1800s),则进程可能重启过,建议半小时后再检查。如果多次检查,进程的运行时间都小于半小时,说进程状态异常。 恢复指导: 登录检查结果不健康的节点,执行su - omm切换到omm用户。 根据进程名称查看进程pid,执行命令: ps -ef | grep NodeAgent 根据pid查看进程启动时间,执行命令: ps -p pid -o lstart 判断进程启动时间是否正常。如果进程一直反复重启,执行5 查看对应模块日志,分析重启原因。 NodeAgent运行时间异常,检查相关日志/var/log/Bigdata/nodeagent/agentlog/agent.log。 Controller运行时间异常,检查相关日志/var/log/Bigdata/controller/controller.log。 Tomcat运行时间异常,检查相关日志/var/log/Bigdata/tomcat/web.log。 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
  • 各节点与主管理节点之间SSH互信 指标项名称:各节点与主管理节点之间SSH互信 指标项含义:检查SSH互信是否正常。如果使用omm用户,在主管理节点可以通过SSH登录其他节点且不需要输入密码,则认为健康;否则,不健康。或者主管理节点SSH可以直接登录其他节点,但在其他节点无法通过SSH登录主管理节点,则也认为不健康。 恢复指导: 如果该指标项检查异常,表示各节点与主管理节点之间SSH互信异常。SSH互信异常时,首先检查“/home/omm”目录的权限是否为omm。非omm的目录权限可能导致SSH互信异常,建议执行chown omm:wheel修改权限后重新检查。如果“/home/omm”目录权限正常,则执行2。 SSH互信异常一般会导致Controller和NodeAgent之间心跳异常,进而出现节点故障的告警。这时可参见告警ALM-12006进行处理。
  • OMS状态检查 指标项名称:OMS状态检查 指标项含义:OMS状态检查包括HA状态检查和资源状态检查。 HA状态取值为active、standby和NULL,分别表示主节点、备节点和未知。资源状态取值为normal、abnormal和NULL,分别表示正常、异常和未知。HA状态为NULL时,认为不健康;资源状态为NULL或abnormal时,认为不健康。 表1 OMS状态说明表 名称 说明 HA状态 active表示主节点 standby表示备节点 NULL表示未知 资源状态 normal表示所有资源都正常 abnormal表示有异常资源 NULL表示未知 恢复指导: 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。 如果HA状态为NULL,可能是系统在重启,这个一般是中间状态,HA后续会自动调整为正常状态。 如果资源状态异常,则说明有Manager的某些组件资源异常, 可具体查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等组件状态是否正常。 如果Manager组件资源异常,参见Manager组件状态检查进行处理。
  • Manager组件状态检查 指标项名称:Manager组件状态检查 指标项含义:Manager组件状态检查包括组件资源运行状态和资源HA状态。资源运行状态,取值为Normal、Abnormal等;资源HA状态,取值为Normal、Exception等。Manager组件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。当运行状态和HA状态不是Normal时,认为指标不健康。 表2 Manager组件状态说明表 名称 说明 资源运行状态 Normal表示正常运行 Abnormal表示运行异常 Stopped表示停止 Unknown表示状态未知 Starting表示正在启动 Stopping表示正在停止 Active_normal表示主正常运行 Standby_normal表示备正常运行 Raising_active表示正在升主 Lowing_standby表示正在降备 No_action表示没有该动作 Repairing表示正在修复 NULL表示未知 资源HA状态 Normal表示正常 Exception表示故障 Non_steady表示非稳态 Unknown表示未知 NULL表示未知 恢复指导: 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。 如果floatip、okerberos、oldap等异常,可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。 如果是其他资源异常,建议查看相关异常模块的日志。 controller资源异常:查看异常节点的/var/log/Bigdata/controller/controller.log。 cep资源异常:查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。 aos资源异常:查看异常节点的/var/log/Bigdata/controller/aos/aos.log。 feed_watchdog资源异常:查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。 httpd资源异常:查看异常节点的/var/log/Bigdata/httpd/error_log。 fms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。 pms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。 iam资源异常:查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。 gaussDB资源异常:查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。 ntp资源异常:查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。 tomcat资源异常:查看异常节点的/var/log/Bigdata/tomcat/catalina.log。 如果通过日志无法排除问题,请联系公有云运维人员处理,并发送已收集的故障日志信息。
  • 使用说明 在使用AstroPro前,您需要购买一个AstroPro实例。AstroPro实例是一个独立的资源空间,所有的操作都是在实例内进行,不同实例间的资源相互隔离。 相对于基础版实例,专业版实例提供了更多的应用及实体功能,可满足中大型企业的复杂管理需求。除此之外,购买专业版实例时或购买实例后,支持对资源进行扩容。专业版和基础版实例支持的特性差异,请参见产品规格差异。为了便于您更好的了解AstroPro,本指南中操作及截图均以专业版实例为例进行介绍。
  • 购买实例 进入购买Astro企业应用实例页面。 “实例规格”选择“专业版”,其他参数按需进行设置,单击“立即购买”。 图1 选择购买规格 确认订单无误后,单击“去支付”。 以购买专业版一个月为例,若为基础版,此处配置费用为“0”。 图2 确认订单 选择支付方式,单击“确认付款”,完成支付。 订单支付成功后,单击“返回Astro企业应用控制台”。 在Astro企业应用控制台中,可以查看到Astro企业应用的实例状态。当“实例状态”变为“运行中”时,说明实例已安装完成,可以正常使用Astro企业应用。 图3 查看实例状态
  • 购买扩容包 扩容包仅适用于在购买专业版的基础上使用,不可单独购买和退订。扩容包的使用截止时间与主资源的截止时间保持一致。 参考购买实例中操作,购买AstroPro专业版实例。 在已购买的实例中,单击“操作”,选择“扩容”。 图4 选择扩容 在购买扩容包页面,设置购买数量,单击“立即购买”。 一个资源扩容包,包含用户数50个、应用数20个、实体个数200个,请按需设置购买数量。 图5 购买扩容包 选择支付方式,单击“确认付款”,完成订单支付。 返回AstroPro服务控制台,在已购买的实例中,单击“进入首页”,查看扩容后的资源规格。 图6 查看扩容后规格
共100000条