华为云用户手册

  • 到期与欠费 DataArts Studio基础包 DataArts Studio基础包套餐采用包年包月计费模式,套餐到期后进入宽限期,宽限期内您可正常访问及使用DataArts Studio,且正常计费。您需要在宽限期内购买套餐时长,否则会进入保留期。 保留期内,数据仍予以保留,但是您将无法访问DataArts Studio实例,您无法在DataArts Studio管理控制台进行操作,相关接口也无法调用。如果在保留期结束时您没有续费,DataArts Studio将终止服务,系统中的数据也将被永久删除。 系统会根据用户等级赋予不同的宽限期和保留期,详见宽限期保留期。 DataArts Studio增量包 “包年包月”计费的DataArts Studio增量包 包年包月计费模式的增量包到期后进入宽限期,宽限期内您可正常使用增量包,且正常计费。您需要在宽限期内购买套餐时长,否则会进入保留期。 保留期内,数据仍予以保留,但是您将无法使用增量包功能。如果在保留期结束时您没有续费,增量包将终止服务,系统中的数据也将被永久删除。 系统会根据用户等级赋予不同的宽限期和保留期,详见宽限期保留期。 “按需计费”的批量数据迁移增量包 按每小时扣费,没有到期的概念,只要账户中有余额就可以继续使用。当余额不足,无法对上一个小时的费用进行扣费,就会导致DataArts Studio增量包欠费,欠费后进入宽限期,宽限期内您可正常访问及使用DataArts Studio增量包的服务,但处于宽限期的资源是继续计费的。您需要在宽限期内续费,否则会进入保留期。 保留期内,数据仍予以保留,但是您将无法访问DataArts Studio增量包的服务,也无法进行相关操作,相关接口无法调用。如果在保留期结束时您没有续费,DataArts Studio将终止服务,系统中的数据也将被永久删除。 系统会根据用户等级赋予不同的宽限期和保留期,详见宽限期保留期。 “套餐包(按需资源包)”计费的批量数据迁移增量包 所购买的时长到期后套餐结束,会自动转为“按需计费”方式继续计费。
  • 续费 DataArts Studio基础包 DataArts Studio基础包套餐采用包年包月计费模式,套餐到期后相继进入宽限期和保留期(详情请参见到期与欠费),建议请在所购买的套餐包时长用完前进行续费。 DataArts Studio基础包支持自动续费,自动续费的默认续费周期为: 按月购买:自动续费周期为1个月。 按年购买:自动续费周期为1年。 您可以通过以下两种方式开通自动续费: 登录DataArts Studio控制台,在购买DataArts Studio实例的页面中,勾选“自动续费”选项。 如果您已购买DataArts Studio实例,请进入续费管理页面,在实例列表中查找所需续费的DataArts Studio实例,单击其所在行的“开通自动续费”,然后请根据页面提示完成自动续费的开通。 您也可以进行手动续费,请进入续费管理页面,在列表中查找所需续费的DataArts Studio实例,单击其所在行的“续费”,进行手动续费操作。有关续费的更多信息,请参见续费管理。 DataArts Studio增量包 “包年包月”计费的DataArts Studio增量包 包年包月计费的DataArts Studio增量包,当时长到期后相继进入宽限期和保留期(详情请参见到期与欠费),因此在欠费前请及时充值。 如需充值,请进入续费管理页面,在左侧导航树单击“总览”,在总览页面单击“充值”对账户进行充值。 “按需计费”的批量数据迁移增量包 按需计费是按每小时扣费,当余额不足后会相继进入宽限期和保留期(详情请参见到期与欠费),因此在欠费前请及时充值。 如需充值,请进入续费管理页面,在左侧导航树单击“总览”,在总览页面单击“充值”对账户进行充值。 “套餐包(按需资源包)”计费的批量数据迁移增量包 套餐包(按需资源包)计费的批量数据迁移增量包,所购买的时长到期后套餐结束,会自动转为“按需计费”方式。如果希望继续享受“套餐包”的优惠方式,请在所购买的套餐包时长用完前进行再次购买。 如需再次购买,请进入续费管理页面,找到所需购买的DataArts Studio增量包,然后单击“再次购买”。
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的 IaaS、PaaS 和 SaaS 类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API 网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 华为云ECS在Agent安装以后会访问哪些地址? 华为云服务器在安装Agent后通常情况会访问的设备、IP、端口如表1所示。 表1 新装Agent访问情况说明 源设备 源IP 源端口 目的设备 目的IP 目的端口(监听) 协议 访问说明 备注 HSS Agent Agent管理 IP 随机 HSS服务端 HSS服务端-ip1 HSS服务端-ip2 10180 TCP HSS Agent访问HSS服务端节点,主要是获取服务器端下发的策略/配置/指令、下载Agent软件包/升级包、下载特征库、上报告警事件/资产指纹数据库/基线检查结果和在用户授权许可下上传可疑的可执行程序文件。 每个Region的HSS服务端IP地址不同,Agent通过域名访问,访问的域名格式为:hss-agent.{{REGION_ID}}.myhuaweicloud.com.REGION_ID,每个Region会有差异,每个Region的具体域名可以通过Agent安装指南中的安装命令看到HSS服务器域名地址。 元数据服务节点 元数据服务节点IP 80 HSS Agent获取Agent所在服务器的metadata信息,包括获取ECS的uuid、availability_zone、project_id和enterprise_project_id信息。 - 父主题: Agent问题
  • Windows Agent相关进程 Agent进程运行账号:system。 Agent包含以下进程: 表2 Windows主机Agent运行进程 Agent进程名称 进程功能 进程所在路径 hostguard.exe 该进程用于系统的各项安全检测与防护、Agent进程的守护和监控。 C:\Program Files\HostGuard\HostGuard.exe hostwatch.exe 该进程用于Agent进程的守护和监控。 C:\Program Files\HostGuard\HostWatch.exe upgrade.exe 该进程用于Agent升级。 C:\Program Files\HostGuard\upgrade.exe
  • Linux Agent相关进程 Agent进程运行账号:root。 Agent包含以下进程: 表1 Linux主机Agent运行进程 Agent进程名称 进程功能 进程所在路径 hostguard 该进程用于系统的各项安全检测与防护、Agent进程的守护和监控。 /usr/local/hostguard/bin/hostguard hostwatch 该进程用于Agent进程的守护和监控。 /usr/local/hostguard/bin/hostwatch upgrade 该进程用于Agent版本的升级。 /usr/local/hostguard/bin/upgrade
  • Agent的作用 每日凌晨定时执行检测任务,全量扫描主机/容器;实时监测主机/容器的安全状态;并将收集的主机/容器信息上报给云端防护中心。 根据您配置的安全策略,阻止攻击者对主机/容器的攻击行为。 如果未安装Agent或Agent状态异常,您将无法使用主机安全服务。 Agent可安装在华为云弹性云服务器(Elastic Cloud Server,ECS)/裸金属服务器(Bare Metal Server,BMS)/云耀云服务器(Hyper Elastic Cloud Server,HECS)、线下主机以及第三方云主机中。
  • 日志保留周期 日志文件 日志描述 文件大小限制 路径下保留的文件 保留周期 hostwatch.log 记录守护进程运行时相关日志。 10 MB 保留8个最新的日志文件。 不超过文件大小限制,只要不卸载HSS Agent,会一直保留日志信息。 hostguard.log 记录工作进程运行时相关日志。 10 MB 保留8个最新的日志文件。 upgrade.log 记录版本升级时相关日志。 10 MB 保留8个最新的日志文件。 hostguard-service.log 记录服务启动时相关日志(脚本)。 100 kB 保留2个最新的日志文件。 config_tool.log 记录服务启动时相关日志(程序)。 10 kB 保留2个最新的日志文件。 engine.log 记录服务退出时相关日志。 10 kB 保留2个最新的日志文件。
  • 日志路径 您需要根据主机的操作系统,查看日志文件。 操作系统 日志所在路径 日志文件 Linux /var/log/hostguard/ hostwatch.log hostguard.log upgrade.log hostguard-service.log config_tool.log engine.log Windows C:\Program Files\HostGuard\log hostwatch.log hostguard.log upgrade.log
  • 操作场景 用户首次进入云审计服务时,在追踪器页面单击“开通云审计服务”,系统会自动为您创建一个名为system的管理追踪器,之后您也可以在追踪器页面创建多个数据追踪器。管理追踪器会自动识别并关联当前租户所使用的所有云服务,并将当前租户的所有操作记录在该追踪器中。数据追踪器会记录租户对OBS桶中的数据操作的详细信息。 用户通过云审计控制台只能查询最近7天的操作记录。如果需要查询超过7天的操作记录,您必须配置转储到对象存储服务(OBS),才可在OBS桶里面查看历史文件。否则,您将无法追溯7天以前的操作记录。
  • 关联服务 对象存储服务(Object Storage Service,简称OBS):存储事件文件。 由于云审计服务需要高频次的访问转储的OBS桶,因此必须选择使用标准存储类型的OBS桶。 数据加密服务(Data Encryption Workshop,简称DEW):为事件文件加密功能提供密钥。 云日志服务(Log Tank Service,简称LTS):提供日志存储功能。 消息通知服务(Simple Message Notification,简称SMN):检测到关键操作时,调用消息通知服务向用户发送邮件、短信通知。
  • 适用场景 套餐包计费模式需要用户预先支付一定使用次数的费用,适用于长期、稳定的业务需求。以下是一些适用于套餐包计费模式的业务场景: 稳定业务需求:对于长期运行且资源需求相对稳定的业务,套餐包计费模式能提供较高的成本效益。 长期项目:对于周期较长的项目,套餐包计费模式可以确保在整个项目周期内资源的稳定使用。 业务高峰预测:如果能预测到业务高峰期,可提前购买套餐包资源以应对高峰期的需求,避免资源紧张。 数据安全要求高:对于对数据安全性要求较高的业务,套餐包计费模式可确保资源的持续使用,降低因资源欠费而导致的数据安全风险。
  • 到期后影响 图1描述了套餐包OCR资源各个阶段的状态。购买后,在计费周期内资源正常运行,此阶段为有效期;资源到期而未续费时,将陆续进入宽限期和保留期。 图1 套餐包OCR资源生命周期 到期预警 套餐包OCR资源在到期前第7天内,系统将向用户推送到期预警消息。预警消息将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 到期后影响 当您的套餐包OCR资源到期未续费,首先会进入宽限期,资源状态变为“已过期”。宽限期内客户可正常访问及使用云服务,但以下操作将受到限制: 不可重置套餐包方式的API接口,例如“网络图片识别10万次套餐包”,在欠费后如果套餐包有剩余,可继续使用,但不可购买,也不可续期。 无法开通服务。 为了避免影响业务正常使用,请您在收到欠费通知后,及时前往华为云控制台费用中心进行充值。 如果您在宽限期内仍未续费套餐包OCR资源,那么就会进入保留期,资源状态变为“已冻结”,您将无法对处于保留期的套餐包资源执行任何操作。 保留期到期后,若套餐包OCR资源仍未续费,那么存储在该资源中的数据将被删除,套餐包资源将被释放,按需资源将被删除,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 关于续费的详细介绍请参见续费概述。
  • 计费示例 假设您在2023/04/18 9:59:30开通了文字识别身份证API按需计费,然后在2023/04/18 10:45:46将其关闭,期间成功调用100次: 第一个计费周期为9:00:00 ~ 10:00:00,在9:59:30 ~ 10:00:00间产生费用,该计费周期内的计费次数为5次。 第二个计费周期为10:00:00 ~ 11:00:00,在10:00:00 ~ 10:45:46间产生费用,该计费周期内的计费次数为95次。 每一个小时整点结算一次费用(以UTC+8时间为准),您需要为每个计费周期付费。
  • 续费相关的功能 套餐包文字识别服务续费相关的功能如表1所示。 表1 续费相关的功能 功能 说明 手动续费 套餐包文字识别服务从购买到套餐包截止日期之前,您可以随时在OCR控制台为文字识别服务续费,以延长文字识别服务的使用时间。 自动续费 开通自动续费后,文字识别服务会在每次到期前自动续费,避免因忘记手动续费而导致资源被自动删除/释放。 在套餐包文字识别服务生命周期的不同阶段,您可以根据需要选择一种方式进行续费,具体如图1所示。 图1 文字识别服务生命周期 文字识别服务从购买到到期前,资源状态为“可使用”。 到期后,资源状态变为“已过期”。 到期未续费时,文字识别服务首先会进入宽限期,宽限期到期后仍未续费,资源状态变为“已冻结”。 超过宽限期仍未续费将进入保留期,如果保留期内仍未续费,资源将被自动删除/释放。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 在文字识别服务到期前均可开通自动续费,到期前7日凌晨3:00首次尝试自动续费,如果扣款失败,每天凌晨3:00尝试一次,直至文字识别服务到期或者续费成功。到期前7日自动续费扣款是系统默认配置,您也可以根据需要修改此扣款日。
  • 企业主账号购买的套餐包资源,子账号如何使用 “企业主账号”与“子账号”为通俗意义的说法,准确上为“账号”与“IAM用户”。账号与IAM用户可以类比为父子关系,账号是资源归属以及计费的主体,对其拥有的资源具有所有权限。IAM用户由账号创建,只能拥有账号授予的资源使用权限,账号可以随时修改或者撤销IAM用户的使用权限。IAM用户进行资源操作时产生的费用统一计入账号中,IAM用户不需要为资源付费。使用账号可以创建IAM用户及给IAM用户授权,登录IAM用户即可查看和使用账号授权的资源。 父主题: 计费FAQ
  • 启动presto 步骤如下: 启动hive metastore:hive --service metastore & 启动presto server:bin/launcher start (如何关闭presto服务:bin/launcher stop) 启动presto client: 重命名presto-cli-333-executable.jar为presto,放在bin目录下,然后赋予执行权限:chmod +x presto 启动client:./presto --server XX.XX.XX.XX:5050 --catalog hive --schema default
  • Catalog配置文件(重点) hive connector配置如下: 在etc目录下创建catalog目录 创建一个hive connector的配置文件:hive.properties # hive.properties #连接名 connector.name=hive-hadoop2 #配置hive metastore连接 hive.metastore.uri=thrift://192.168.XX.XX:9083 #指定hadoop的配置文件,注意core-site.xml需要按照https://github.com/huaweicloud/obsa-hdfs/tree/master/release/doc配置 hive.config.resources=/home/modules/hadoop-2.8.3/etc/hadoop/core-site.xml,/home/modules/hadoop-2.8.3/etc/hadoop/hdfs-site.xml,/home/modules/hadoop-2.8.3/etc/hadoop/mapred-site.xml #给删表权限 hive.allow-drop-table=true
  • Server配置文件 配置属性文件etc/config.properties,包含Presto server的配置。Presto server可以同时为coordinator和worker,但一个大集群里最好就是只指定一台机器为coordinator。 coordinator节点的配置文件 coordinator=true node-scheduler.include-coordinator=true http-server.http.port=5050 discovery-server.enabled=true discovery.uri=http://192.168.XX.XX:5050 query.max-memory=20GB query.max-memory-per-node=1GB query.max-total-memory-per-node=2GB worker节点的配置文件 coordinator=false http-server.http.port=5050 discovery.uri=http://192.168.XX.XX:5050 query.max-memory=20GB query.max-memory-per-node=1GB query.max-total-memory-per-node=2GB 解释: coordinator:是否运行该实例为coordinator(接受client的查询和管理查询执行)。 node-scheduler.include-coordinator:coordinator是否也作为work。对于大型集群来说,在coordinator里做worker的工作会影响查询性能。 http-server.http.port:指定HTTP端口。Presto使用HTTP来与外部和内部进行交流。 query.max-memory:查询能用到的最大总内存。 query.max-memory-per-node:查询能用到的最大单节点内存。 discovery-server.enabled:Presto使用Discovery服务去找到集群中的所有节点。每个Presto实例在启动时都会在Discovery服务里注册。这样可以简化部署,不需要额外的服务,Presto的coordinator内置一个Discovery服务。 discovery.uri:Discovery服务的URI。将example.net:8080替换为coordinator的host和端口。这个URI不能以斜杠结尾,这个错误需特别注意,不然会报404错误。 另外还有以下属性: jmx.rmiregistry.port:指定JMX RMI的注册。JMX client可以连接此端口 jmx.rmiserver.port:指定JMX RMI的服务器。可通过JMX监听。
  • 安装presto server 版本:prestoSQL-333 下载Presto客户端和服务端。 下载客户端 下载服务端 下载hadoop-huaweicloud插件:下载地址。 执行以下命令,解压Presto服务端。 tar –zxvf presto-server-333.tar.gz 在presto根目录/plugin/hive-hadoop2下放入如下两个jar包。 hadoop-huaweicloud-${hadoop.version}-hw-${version}.jar Apache commons-lang-xxx.jar 可从maven中央仓库下载或从hadoop目录中拷贝。
  • 节点配置文件 节点属性文件etc/node.properties,包含每个节点的配置。一个节点是一个Presto实例。这文件一般是在Presto第一次安装时创建的。以下是最小配置: node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/presto/data 解释: node.environment:环境名字,Presto集群中的节点的环境名字都必须是一样的。 node.id:唯一标识,每个节点的标识都必须是唯一的。就算重启或升级Presto都必须还保持原来的标识。 node.data-dir:数据目录,Presto用它来保存log和其他数据 示例: node.environment=presto_cluster node.id=bigdata00 node.data-dir=/home/modules/presto-server-0.215/data #data需要自己手动创建
  • JVM配置文件 JVM配置文件etc/jvm.config,包含启动Java虚拟机时的命令行选项。格式是每一行是一个命令行选项。此文件数据是由shell解析,所以选项中包含空格或特殊字符会被忽略。 以下是参考配置: -server -Xmx16G -XX:-UseBiasedLocking -XX:+UseG1GC -XX:G1HeapRegionSize=32M -XX:+ExplicitGCInvokesConcurrent -XX:+ExitOnOutOfMemoryError -XX:+UseGCOverheadLimit -XX:+HeapDumpOnOutOfMemoryError -XX:ReservedCodeCacheSize=512M -Djdk.attach.allowAttachSelf=true -Djdk.nio.maxCachedBufferSize=2000000 备注:以上参数都是官网参数,实际环境需要调整
  • 【附】hadoop-huaweicloud相关配置 配置项 默认值 是否必填 说明 fs.obs.impl org.apache.hadoop.fs.obs.OBSFileSystem 是 - fs.AbstractFileSystem.obs.impl org.apache.hadoop.fs.obs.OBS 是 - fs.obs.endpoint 无 是 华为云OBS的终端节点(Endpoint)。 fs.obs.access.key 无 是 华为云的AK(Access Key Id),需要具备访问OBS对应桶的权限。 fs.obs.secret.key 无 是 华为云的SK(Secret Access Key),需要具备访问OBS对应桶的权限。 fs.obs.session.token 无 否 华为云的securitytoken,需要具备访问OBS对应桶的权限。当使用临时AK/SK时需要。 fs.obs.security.provider 无 否 实现com.obs.services.IObsCredentialsProvider接口的类,用于获取访问OBS的凭证。 fs.obs.connection.ssl.enabled FALSE 否 是否通过HTTPS访问OBS。 fs.obs.threads.keepalivetime 60 否 控制读写线程池参数keepAliveTime。 fs.obs.threads.max 20 否 控制读写线程池参数corePoolSize和maximumPoolSize fs.obs.max.total.tasks 20 否 控制读写线程池参数BlockingQueue的容量,其等于fs.obs.threads.max+fs.obs.max.total.tasks fs.obs.multipart.size 104857600 否 写相关配置,多段上传大小。 fs.obs.fast.upload.buffer disk 否 写相关配置,所有数据在写入OBS前都会先缓存然后再上传到OBS,此参数用于设置缓存方式,取值范围: disk:缓存在磁盘 array:缓存在JVM堆内内存 bytebuffer:缓存在JVM堆外内存 fs.obs.buffer.dir ${hadoop.tmp.dir} 否 写相关配置,当fs.obs.fast.upload.buffer为disk时的缓存目录,支持多目录并以逗号分隔。 fs.obs.bufferdir.verify.enable FALSE 否 写相关配置,当fs.obs.fast.upload.buffer为disk时是否验证缓存目录是否存在以及是否具备写权限。 fs.obs.fast.upload.active.blocks 4 否 写相关配置,每个流操作最大可以使用的缓存个数(通过多段上传线程池最多可以提交的线程任务个数),从而限制每个流操作最大可以使用的缓存空间fs.obs.fast.upload.active.blocks*fs.obs.multipart.size。 fs.obs.fast.upload.array.first.buffer 1048576 否 写相关配置,当fs.obs.fast.upload.buffer为array时,此参数控制JVM堆内缓存初始化大小 fs.obs.readahead.range 1048576 否 写相关配置,预读片段大小。 fs.obs.multiobjectdelete.enable TRUE 否 删除相关配置,删除目录时是否启动批量删除。 fs.obs.delete.threads.max 20 否 删除相关配置,控制线程池参数maximumPoolSize和corePoolSize fs.obs.multiobjectdelete.maximum 1000 否 删除相关配置,批量删除时单次OBS批量删除请求中支持的最多可删除对象的个数,最大值为1000。 fs.obs.multiobjectdelete.threshold 3 否 删除相关配置,批量删除时当对象个数小于此参数值时将不启动批量删除。 fs.obs.list.threads.core 30 否 List相关配置,控制线程池参数corePoolSize fs.obs.list.threads.max 60 否 List相关配置,控制线程池参数maximumPoolSize fs.obs.list.workqueue.capacity 1024 否 List相关配置,控制线程池参数BlockingQueue的容量 fs.obs.list.parallel.factor 30 否 List相关配置,控制并发因子参数。 fs.obs.paging.maximum 1000 否 List相关配置,单次OBS List请求最多返回的对象个数,最大值为1000。 fs.obs.copy.threads.max 40 否 对象桶rename相关配置,对象桶rename目录时copy线程池配置参数maximumPoolSize,corePoolSize的值为此参数的一半,BlockingQueue的容量为1024。 fs.obs.copypart.size 104857600 否 对象桶rename相关配置,单个对象copy时当对象的大小超过了此参数值则进行多段copy,且段大小为此参数值;否则进行简单copy。 fs.obs.copypart.threads.max 5368709120 否 对象桶rename相关配置,单个对象copy时如果进行了多段copy,多段copy线程池配置参数maximumPoolSize,corePoolSize的值为此参数的一半,BlockingQueue的容量为1024。 fs.obs.getcanonicalservicename.enable FALSE 否 控制getCanonicalServiceName()接口的返回值。 TRUE:obs://bucketname FALSE:null fs.obs.multipart.purge FALSE 否 初始化OBSFilesystem时是否清理桶内的多段上传任务。 fs.obs.multipart.purge.age 86400 否 初始化OBSFilesystem时清理桶内多久之前的多段上传任务。 fs.obs.trash.enable FALSE 否 是否开启垃圾回收功能。 fs.obs.trash.dir 无 否 垃圾回收目录。 fs.obs.block.size 134217728 否 块大小。
  • 概述 Hadoop系统提供了分布式存储、计算和资源调度引擎,用于大规模数据处理和分析。OBS服务实现了Hadoop的HDFS协议,在大数据场景中可以替代Hadoop系统中的HDFS服务,实现Spark、MapReduce、Hive等大数据生态与OBS服务的对接,为大数据计算提供“数据湖”存储。 HDFS协议:Hadoop中定义了HDFS协议(通过FileSystem抽象类),其他各类存储系统均可以实现HDFS协议,例如Hadoop中内置的HDFS服务,华为云的对象存储服务OBS。
  • 约束与限制 不支持以下HDFS语义: Lease Symbolic link operations Proxy users File concat File checksum File replication factor Extended Attributes(XAttrs) operations Snapshot operations Storage policy Quota POSIX ACL Delegation token operations
  • 更新OBSA-HDFS工具 下载与hadoop版本配套的OBSA-HDFS工具:下载地址。 并将OBSA-HDFS工具jar包(如hadoop-huaweicloud-3.1.1-hw-53.8.jar)上传到CDH各节点/opt/obsa-hdfs目录中。 hadoop-huaweicloud-x.x.x-hw-y.jar包含义:前三位x.x.x为配套hadoop版本号;最后一位y为OBSA版本号,y值最大为最新版本。如:hadoop-huaweicloud-3.1.1-hw-53.8.jar,3.1.1是配套hadoop版本号,53.8是OBSA的版本号。 如hadoop版本为3.1.x,则选择hadoop-huaweicloud-3.1.1-hw-53.8.jar。 增加hadoop-huaweicloud的jar包。 在CDH集群各节点执行以下命令,命令请根据hadoop-huaweicloud的jar包名字及实际CDH版本进行适配使用。 执行如下命令,将OBSA-HDFS工具的jar包放到/opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/目录中。 cp /opt/obsa-hdfs/hadoop-huaweicloud-3.1.1-hw-53.8.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/ 执行如下命令,建立各目录的软连接,将hadoop-huaweicloud的jar包放入如下目录。 ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud-3.1.1-hw-53.8.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/cloudera-navigator-server/libs/cdh6/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/common_jars/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/lib/cdh6/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/cloudera-scm-telepub/libs/cdh6/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/lib/hadoop/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/lib/hadoop/client/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/lib/spark/jars/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/lib/impala/lib/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/lib/hadoop-mapreduce/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/lib/cdh5/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/cloudera-scm-telepub/libs/cdh5/hadoop-huaweicloud.jar ln -s /opt/cloudera/parcels/CDH-6.0.1-1.cdh6.0.1.p0.590678/jars/hadoop-huaweicloud.jar /opt/cloudera/cm/cloudera-navigator-server/libs/cdh5/hadoop-huaweicloud.jar
  • 创建和配置域名托管 为了方便对您的自定义域名和静态网站统一管理,实现业务全面云化,您可以直接在华为云提供的云解析服务(Domain Name Service,DNS)上托管您的自定义域名。托管完成后,后续域名解析的管理都可以在云解析服务上进行,包括:管理记录集、管理反向解析、设置域名泛解析等等。 您也可以直接在域名注册商域名解析中,根据是否开启CDN加速来添加一条别名记录。 如果绑定自定义域名时开启了CDN加速,则添加的别名记录需指向CDN提供的加速域名。例如:域名“www.example.com”开启CDN加速后的加速域名为“www.example.com.c.cdnhwc1.com”,则需要在域名注册商添加一条值为“www.example.com CNAME www.example.com.c.cdnhwc1.com”的记录。 如果绑定自定义域名时未开启CDN加速,则添加的别名记录需指向桶的访问域名。例如:桶“example”所处区域“华北-北京一”,则需要在域名注册商添加一条值为“www.example.com CNAME example.obs.cn-north-1.myhuaweicloud.com”的记录。 使用云解析服务创建和配置域名托管的操作步骤如下: 创建公网域名。 在云解析服务中创建公网域名,使用准备工作中注册的根域名“example.com”作为创建公网域名。详细的创建方法请参见配置网站解析章节中的“添加域名”部分内容。 添加别名记录。 在云解析服务中为托管域名子域名“www.example.com”添加记录集,配置该子域名别名指向OBS的静态网站托管域名。在添加别名记录时参数配置如下: 主机记录:输入“www”。 类型:选择“CNAME – 将域名指向另外一个域名”。 线路类型:选择“全网默认”。 TTL(秒):保持默认。 值:需指向的域名。如果绑定自定义域名时没有开启CDN加速,此处填写OBS的桶的静态网站托管域名;如果开启了CDN加速,此处填写CDN提供的加速域名(即CNAME)。 详细的创建方法请参见增加CNAME类型记录集。 在域名注册商处修改域名解析服务器地址。 在域名注册商处,将该根域名对应的NS记录中域名解析服务器地址修改为云解析服务(DNS)服务器的地址,具体地址为云解析服务中该公网域名记录集中NS记录的值字段内容信息。 详细的更改域名解析服务器地址的方法请参见配置网站解析章节中的“更改域名的DNS服务器”部分。 更改后的域名解析服务器地址将于48小时内生效,具体生效时间请以域名注册商处的说明为准。 父主题: 实施步骤
  • 对接步骤 以flume 1.9版本为例。 下载apache-flume-1.9.0-bin.tar.gz。 安装flume。 解压apache-flume-1.9.0-bin.tar.gz到/opt/apache-flume-1.9.0-bin目录。 已部署Hadoop的环境:无需额外操作,部署Hadoop请参见Hadoop对接OBS。 未部署Hadoop的环境: 将hadoop中的相关jar包复制到/opt/apache-flume-1.9.0-bin/lib目录下,包含hadoop-huaweicloud-xxx.jar。 将添加了OBS相关配置的core-site.xml文件复制到/opt/apache-flume-1.9.0-bin/conf目录下。 验证是否对接成功。 示例:以flume内置的StressSource为source,以file为channel,以obs为sink。 创建flume配置文件:sink2obs.properties。 agent.sources = r1 agent.channels = c1 agent.sinks = k1 agent.sources.r1.type = org.apache.flume.source.StressSource agent.sources.r1.channels = c1 agent.sources.r1.size = 1024 agent.sources.r1.maxTotalEvents = 100000 agent.sources.r1.maxEventsPerSecond = 10000 agent.sources.r1.batchSize=1000 agent.sources.r1.interceptors = i1 agent.sources.r1.interceptors.i1.type = host agent.sources.r1.interceptors.i1.useIP = false agent.channels.c1.type = file agent.channels.c1.dataDirs = /data/agent/flume-data agent.channels.c1.checkpointDir = /data/agent/flume-checkpoint agent.channels.c1.capacity = 500000 agent.channels.c1.transactionCapacity = 50000 agent.sinks.k1.channel = c1 agent.sinks.k1.type = hdfs agent.sinks.k1.hdfs.useLocalTimeStamp = true agent.sinks.k1.hdfs.filePrefix = %{host}_k1 agent.sinks.k1.hdfs.path = obs://obs-bucket/flume/create_time=%Y-%m-%d-%H-%M agent.sinks.k1.hdfs.fileType = DataStream agent.sinks.k1.hdfs.writeFormat = Text agent.sinks.k1.hdfs.rollSize = 0 agent.sinks.k1.hdfs.rollCount = 1000 agent.sinks.k1.hdfs.rollInterval = 0 agent.sinks.k1.hdfs.batchSize = 1000 agent.sinks.k1.hdfs.round = true agent.sinks.k1.hdfs.roundValue = 10 agent.sinks.k1.hdfs.roundUnit = minute 执行以下命令,启动flume agent。 ./bin/flume-ng agent -n agent -c conf/ -f conf/sink2obs.properties
  • 邀请其他企业用户 可以通过邀请其他企业用户,对当前项目进行查看或编辑。 单击“添加成员”旁的下拉框,选择“邀请其他企业用户”。 弹出“邀请其他企业用户”对话框,在“企业用户”输入框中输入企业用户ID,在“用户名称”输入框中输入需要邀请的用户名称后,单击右侧“添加用户”,可一次性添加同一企业不同用户。 单击“确定”导入其他企业成员,默认为“浏览者”身份权限。可通过设置项目成员角色修改成员角色与权限。
  • 自定义请求 在测试用例中,可能需要调用项目之外的接口,例如在请求华为终端app前,需要调用账号服务的获取用户认证token。此时用户可以在测试步骤中添加自定义请求,自定义请求可以是任何 HTTP 请求,包括常见的 GET、POST、PUT、DELETE 等请求。 单击“URL请求”选项,添加“自定义URL请求”测试步骤。 在自定义请求中可编辑请求名称、地址和请求参数等信息,详细参照设置接口请求章节。
共100000条