华为云用户手册

  • 优化顾问的风险检查覆盖哪些云服务产品? 目前已经覆盖18个云服务产品,含ECS(云服务器)、RDS(云数据库)、ELB(负载均衡)、CDN(内容分发)、VPC(专有网络)、EVS、BMS、DDoS、镜像、域名、配额、安全组、VPN(VPN网关)、NAT(NAT网关)、EIP(弹性公网IP)、DDS、MRS、DMS、DCS、CSS、DWS、DLI、ModelArts。后续随着优化顾问的发展会覆盖更多的云产品,敬请期待。
  • 计费模式检查 应用场景 部分资源支持将按需计费实例转为包周期(包年/包月)实例。由于按需资源较贵,需要长期使用资源的按需用户可以选择对按需资源进行转包周期,继续使用这些资源的同时,享受包周期的低资费。 检查步骤 登录优化顾问服务控制台。 在“风险检查总览”页面,单击“开始检查”按钮,当检查进度为100%时检查完成。 图1 点击检查 图2 检查 在“风险检查维度”菜单下,单击“成本”页签,在“风险项”页签,查看部分资源计费模式检查结果 优化建议 建议将按需计费超过一个月的实例的计费方式变更为包周期计费,节约成本。
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的 IaaS、PaaS 和 SaaS 各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。 华为云租户的安全责任在于对使用的 IaaS、PaaS 和 SaaS 类各项云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API 网关和高级安全服务,各项云服务,租户数据,以及身份帐号和密钥管理等方面的安全配置。 图1 华为云安全责任共担模型 父主题: 安全
  • 请求示例 “endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。 提交录音文件识别任务 POST https://{endpoint}/v1/1609d8170cd86660a81281e5a3a03f8b/asr/transcriber/jobs Request Header: Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "config": { "audio_format": "auto", "property": "chinese_8k_general", "add_punc": "yes", "need_analysis_info": { "diarization": true, "channel": "LEFT_AGENT", "emotion": true }, "need_word_info": "yes" }, "data_url":"https://****_voip.obs.myxxxcloud.com/VOIP/***.wav" } 使用Python3语言提交录音文字识别任务 # -*- coding: utf-8 -*- # 此demo仅供测试使用,强烈建议使用sdk。需提前安装requests,执行pip install requests import requests import time import json def lasr_demo(): url = 'https://{{endpoint}}/v1/{{project_id}}/asr/transcriber/jobs' # endpoint和project_id需替换 token = '用户对应region的token' obs_url = 'obs路径' header = { 'Content-Type': 'application/json', 'X-Auth-Token': token } body = { 'data_url': obs_url, 'config': { 'property': 'chinese_8k_general', 'audio_format': 'auto' } } resp = requests.post(url, data=json.dumps(body), headers=header) job_id = json.loads(resp.text, encoding='utf-8')['job_id'] query_task(header, job_id) def query_task(header, job_id): # endpoint和project_id需替换 url = 'https://{{endpoint}}/v1/{{project_id}}/asr/transcriber/jobs/' + job_id for _ in range(1000): resp = requests.get(url, headers=header) print(resp.text) if resp.text.find('segments') != -1: break time.sleep(1) if __name__ == '__main__': lasr_demo() 使用Java语言提交录音文件识别任务 import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.net.HttpURLConnection; import java.net.URL; /** * 此demo仅供测试使用,强烈建议使用SDK */ public class LasrDemo { public void lasrDemo() { try { // endpoint和projectId需要替换成实际信息。 URL url = new URL("https://{{endpoint}}/v1/{{project_id}}/asr/transcriber/jobs"); String token = "对应region的token"; String obsUrl = "音频在obs的路径"; HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("POST"); connection.setDoInput(true); connection.setDoOutput(true); connection.addRequestProperty("Content-Type", "application/json"); connection.addRequestProperty("X-Auth-Token", token); OutputStreamWriter osw = new OutputStreamWriter(connection.getOutputStream(), "UTF-8"); String body = "{\"data_url\":\"" + obsUrl + "\", \"config\": { \"audio_format\": \"auto\", " + "\"property\":\"chinese_8k_general\"}}"; osw.append(body); osw.flush(); InputStream is = connection.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8")); String jobId = ""; while (br.ready()) { String line = br.readLine().trim(); jobId = line.replace("{\"job_id\":\"", "").replace("\"}", ""); } queryTask(token, jobId); } catch (Exception e) { e.printStackTrace(); } } private void queryTask(String token, String jobId) { try { // endpoint和projectId需要替换成实际信息。 URL url = new URL("https://{{endpoint}}/v1/{{project_id}}/asr/transcriber/jobs/" + jobId); while (true) { HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("GET"); connection.setDoInput(true); connection.setDoOutput(true); connection.addRequestProperty("Content-Type", "application/json"); connection.addRequestProperty("X-Auth-Token", token); InputStream is = connection.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8")); if (br.ready()) { String line = br.readLine(); System.out.println(line); if (line.contains("segments")) { break; } } Thread.sleep(2000); } } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { LasrDemo lasrDemo = new LasrDemo(); lasrDemo.lasrDemo(); } }
  • 响应参数 状态码: 200 表8 响应Body参数 参数 是否必选 参数类型 描述 job_id 否 String 创建的任务标识, 如果创建任务成功时必须存在。 由于录音文件识别通常会需要较长的时间,因此识别是异步的,即接口分为创建识别任务和查询任务状态两个接口。 创建识别任务接口创建任务完成后返回job_id参数,然后用户通过调用录音文件识别状态查询接口来获得转写状态和结果。 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。
  • 接口约束 录音时长不超过5小时,文件大小不超过300M。8k采样率音频最小为1.6kb,16k采样率音频最小为3.2kb,即音频时长至少0.1s以上。 需要将识别的录音文件存放在某服务上,可以通过URL访问。 推荐使用华为云OBS:授权配置请参见配置OBS服务,优先推荐使用与请求服务同一region的私有桶文件,如果region不一致,可考虑使用obs签名。 您也可以把录音文件放在自行搭建服务器上,提供下载文件的地址。URL不能使用IP地址,只能使用域名,请尽量避免中文。 音频转写时长受音频时长和排队任务数量影响,音频时长和理论返回时间可参见表 音频转写时长参考表。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。 表1 音频转写时长参考表 音频时长 参考返回时间 小于10分钟 小于2分钟 10分钟-60分钟 2分钟-12分钟 大于60分钟 12 分钟-60分钟 识别结果保存72小时(从识别完成的时间算起)。72小时后如果再访问,将会返回 "task id is not found"错误。
  • 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 Enterprise-Project-Id 否 String 企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。 获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。 企业项目创建步骤请参见用户指南。 说明: 账户创建企业项目后,在传参时,有以下三类场景。 携带正确的ID,正常使用SIS服务,账单归到企业ID对应的企业项目中。 携带错误的ID,正常使用SIS服务,账单的企业项目会被分类为“default”。 不携带ID,正常使用SIS服务,账单的企业项目会被分类为“default”。 表4 请求Body参数 参数 是否必选 参数类型 描述 config 是 TranscriberConfig object 录音文件识别配置信息。 data_url 是 String 存放录音文件地址: 推荐使用华为云OBS:授权配置请参见配置OBS服务。 您也可以把录音文件放在自行搭建服务器上,提供下载文件的地址。URL不能使用IP地址,只能使用域名,请尽量避免中文。 表5 TranscriberConfig 参数 是否必选 参数类型 描述 audio_format 否 String 支持语音的格式,请参考表 audioformat取值范围。 property 是 String 所使用的模型特征串。通常是“语种_采样率_领域”的形式,例如chinese_8k_common。 采样率需要与音频采样率保持一致。 当前支持如下模型特征串: chinese_8k_general(区域支持cn-north-4, cn-east-3,最新端到端通用模型,强烈推荐使用) chinese_16k_media(音视频领域,区域仅支持cn-north-4,cn-east-3,强烈推荐使用) chinese_8k_common(中文普通话语音识别) chinese_16k_conversation(会议场景的中文普通话语音识别) sichuan_8k_common(四川话识别,区域支持cn-north-4,cn-east-3) chinese_8k_bank(银行领域,区域仅支持cn-north-4) chinese_8k_insurance(保险领域,区域仅支持cn-north-4) add_punc 否 String 表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 callback_url 否 String 表示回调 url,即用户用于接收识别结果的服务器地址,不支持IP地址方式调用,url长度小于2048字节。服务请求方法为POST,请求体参见表 响应参数。 如果用户使用回调方式获取识别结果,需填写该参数,处理成功后用户服务器需返回状态码“200”。 如果用户使用轮询方式获取识别结果,则无需填写该参数。 digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。 need_analysis_info 否 AnalysisInfo object 该参数用于设置质检分析参数,是否需要输出质检分析内容以及会议场景多说话人分离,如果为null , 表示不需要。 vocabulary_id 否 String 热词表id,不使用则不填写。 创建热词表信息请参考创建热词表。 need_word_info 否 String 表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 表6 AnalysisInfo 参数 是否必选 参数类型 描述 diarization 否 Boolean 是否需要做话者分离。 默认为true,表示会进行话者分离,识别结果中会包含role项(角色)。 如果diarization为false,那么结果中不会出现role项。 说明: 本表中的参数对audio_format格式中采样率为8k和16k的音频有效。对于8k单声道音频,8k双声道音频以及16k双声道音频仅支持两个说话人分离;对于16k单声道音频,自动识别说话人个数,返回结果最多支持10个说话人,并且property仅支持chinese_16k_media,区域仅支持cn-east-3。 channel 否 String 语音文件声道信息,默认为MONO,可设置为MONO,LEFT_AGENT, RIGHT_AGENT。 如果channel 为MONO,那么原始文件需要为单声道文件。 如果为双声道文件,系统会将其转换成单声道文件,可能会影响识别效果。 如果 channel 为 LEFT_AGENT或RIGHT_AGENT, 则原始文件需要为双声道文件,如果为单声道文件,系统会将其转换成双声道文件,识别结果会出现两条内容完全一致的文本。 当channel 为 LEFT_AGENT或RIGHT_AGENT,且diarization为true时,系统会按照配置给出对应角色。其中: LEFT_AGENT 指定左声道语音为agent(坐席)。 RIGHT_AGENT 指定右声道为agent(坐席)。 emotion 否 Boolean 是否需要做情绪检测,默认为true。仅对audio_format格式中采样率为8k的音频有效。 目前支持NORMAL(正常)、ANGRY(愤怒)和UNKNOWN(未知)情绪识别。 speed 否 Boolean 是否需要输出语速信息,默认为true。 表7 audio_format取值范围 audio_format取值 描述 auto 默认格式,系统自动判断,支持的音视频格式如下:WAV(内部支持pcm/ulaw/alaw/adpcm编码格式)、AMR、FLAC、M4A、MP3、OGG、WEBM、AAC、AC3、MOV、WMA、MP4、AVI、RMVB、MKV、FLV、F4V、WMV、3GP。支持双声道的音视频。 pcm16k16bit 16k16bit裸音频录音数据。 pcm8k16bit 8k16bit裸音频录音数据。 ulaw16k8bit 16k8bit ulaw 裸音频录音数据。 ulaw8k8bit 8k8bit ulaw 裸音频录音数据。 alaw16k8bit 16k8bit alaw 裸音频录音数据。 alaw8k8bit 8k8bit alaw 裸音频录音数据。
  • 功能介绍 该接口用于提交录音文件识别任务,其中录音文件保存在用户的OBS桶中或公网可访问的服务器上(需保证可使用域名访问)。用户开通录音识别服务时,如果录音文件存放在OBS桶中,需授权录音文件引擎读取用户OBS桶权限,授权方法见配置OBS访问权限。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 SIS服务控制台提供了录音文字识别的在线使用页面,用户无需编程即可使用服务功能。 图1 在线使用
  • 方案架构 应用客户端每个请求都将向应用服务器申请预签名URL,该预签名URL有效期由应用服务器管理。具体流程如图1。 图1 移动应用访问OBS数据流程 角色分析如下: 应用客户端:即最终用户手机上的APP,负责向应用服务器申请包含预签名的URL,以及访问OBS完成数据上传或下载。 应用服务器:即提供该Android/iOS应用的开发者开发的APP后台服务,用于管理凭证信息以及发放预签名URL。 OBS:即华为云对象存储,负责处理移动应用的数据请求。 实现流程如下: 移动应用客户端向应用服务器申请一个预签名的URL。 Android和iOS应用使用OBS服务时,不需要存储访问密钥(AK/SK)。应用在上传前必须向用户的应用服务器申请访问OBS的URL,并携带必须信息,包括请求类型、资源路径和资源名称。比如上传操作需要标识该URL为上传请求,需要包含上传的路径以及上传对象的名称;下载操作需要标识该URL为下载请求,需要包含所下载对象的名称。 应用服务器作为可信设备,在应用服务器上存储访问密钥(AK/SK)。应用服务器在验证客户端身份合法之后,使用应用服务器保存的访问密钥(AK/SK)以及客户端访问的资源、操作类型生成预签名URL。举例: https://examplebucket.obs.cn-north-4.myhuaweicloud.com/objectkey?AccessKeyId=AccessKeyID&Expires=1532779451&Signature=0Akylf43Bm3mD1bh2rM3dmVp1Bo%3D Android/iOS移动应用获取此URL,直接使用该URL操作数据,比如上传或者下载操作。 URL中会包含用户的AK、签名、有效期、资源等信息,任何拿到这个URL的人均可执行这个操作。OBS服务收到这个请求并验证签名后,认为该请求就是签发URL的用户自己在执行操作。例如构造一个携带签名信息的下载对象URL,拿到相应URL的人能下载这个对象,但该URL只在Expires指定的失效时间内有效(如果使用临时访问密钥,有效期为临时访问密钥有效时长和Expires的最小值)。URL中携带签名主要用于在不提供给其他人SK的情况下,让其他人能用预签发的URL来进行身份认证,并执行预定义的操作。
  • 资源和成本规划 最佳实践中涉及的资源如下: 表1 资源说明 资源 资源说明 应用客户端(APP Client) 最终用户手机上的APP,负责向应用服务器申请包含预签名的URL,以及访问OBS完成数据上传或下载。 应用服务器(APP Server) 提供该Android/iOS应用的开发者开发的APP后台服务,用于管理凭证信息以及发放预签名URL。 对象存储服务(OBS) 华为云对象存储服务,负责处理移动应用的数据请求。
  • 方式一:使用obsutil校验下载对象的一致性 obsutil支持在下载对象时通过附加参数(vmd5)来校验下载数据的一致性。 以在Windows操作系统下载mytestbucket桶中的test.txt文件至本地为例,开启数据一致性校验的步骤如下: 执行以下命令,检查待下载对象是否具有MD5信息。 obsutil stat obs://test-bucket/test.txt 返回的对象基本信息中,包含MD5信息,如下图所示,执行步骤2。 不包含MD5信息,下载对象时无法进行一致性校验。 执行以下命令,下载对象。 obsutil cp obs://mytestbucket/test.txt D:\test.txt -vmd5 对象下载成功且通过一致性校验,回显信息如下: 如果桶中对象没有MD5值,对象能够下载成功,但不会校验一致性,回显信息如下:
  • 方式三:使用OBS SDK校验下载对象的一致性 OBS SDK对待下载对象的自定义元数据中的MD5值和下载到本地的对象的MD5值进行对比,通过对比结果判断下载对象的一致性。 此处以使用OBS Java SDK下载mytestbucket桶中一个名为test.txt的文本文件为例,下载过程使用MD5值校验数据一致性的示例代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 String endPoint = "https://your-endpoint"; // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全;本示例以ak和sk保存在环境变量中为例,运行本示例前请先在本地环境中设置环境变量ACCESS_KEY_ID和SECRET_ACCESS_KEY_ID。 // 您可以登录访问管理控制台获取访问密钥AK/SK,获取方式请参见https://support.huaweicloud.com/usermanual-ca/ca_01_0003.html String ak = System.getenv("ACCESS_KEY_ID"); String sk = System.getenv("SECRET_ACCESS_KEY_ID"); // 创建ObsClient实例 final ObsClient obsClient = new ObsClient(ak, sk, endPoint); // 获取对象的MD5值 ObjectMetadata metadata = obsClient.getObjectMetadata("mytestbucket", "test.txt"); String md5Origin = metadata.getUserMetadata("contentMd5"); // 计算下载后对象的MD5值 Obsobject obsobject = obsClient.getObject("mytestbucket", "test.txt"); String md5Download = obsClient.base64Md5(obsobject.getObjectContent()); // 对比MD5值 if(md5Origin.contentEquals(md5Download)) System.out.println("Object MD5 validation passes!\n"); else System.out.println("Object MD5 validation failed!\n"); 在以上示例代码中,获取对象MD5值时的contentMd5是在上传时设置的自定义元数据,实际开发中需要根据自定义的元数据名称修改。
  • 方式二:使用OBS Browser+校验下载对象的一致性 OBS Browser+默认关闭MD5校验,在OBS Browser+上启用MD5校验一致性并下载对象的步骤如下: 登录OBS Browser+。 单击客户端右上方的,并选择“高级设置”。 勾选“MD5校验”,如图1所示。 图1 配置MD5校验 单击“确定”。 选择待下载文件的桶,下载文件。 如果MD5校验成功,则文件下载成功。 如果MD5校验失败,则文件下载失败,且在任务管理中提示失败原因:校验文件MD5失败。
  • 背景信息 常见的Web端上传方法是用户通过浏览器上传文件至应用服务器,再由应用服务器上传至OBS,数据需要在应用服务器中转,传输效率较低,且多任务同时上传时应用服务器压力大。 本文介绍一种在Web端利用PostObject接口直传文件至OBS的方法,即使用表单上传方式上传文件至OBS。如图1所示,该方案省去了应用服务器这一步骤,提高了传输效率,不会对服务器产生压力,且服务端签名后直传可以保证传输的安全性。 图1 Web端PostObject直传流程图
  • 操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。 2 创建资源 创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”,存储类型请根据存储容量和性能需求选择,AI场景建议选择250MB/s/TiB及以上的存储类型。 创建OBS桶:创建1个OBS桶,存储类别为“标准存储”,桶策略为“私有”。 创建ModelArts资源池:创建1个专属资源池。 3 基本配置 配置ModelArts和SFS Turbo间网络直通。 创建委托授权ModelArts云服务使用SFS Turbo。 配置ModelArts网络关联SFS Turbo。 配置SFS Turbo和OBS联动。 配置SFS Turbo数据自动导出到OBS桶。 配置SFS Turbo数据淘汰策略。 4 训练 上传数据至OBS并预热到SFS Turbo中。 创建训练任务。 5 例行运维 使用OBS+SFS Turbo的存储加速方案的过程中,您可以进行采取以下运维措施,保证系统正常高效运行: SFS Turbo容量监控及告警。 SFS Turbo性能监控。 调整SFS Turbo数据淘汰策略。 SFS Turbo容量及性能扩容。 OBS性能监控。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速实践
  • 对接步骤 配置Druid。 修改配置: conf/druid/single-server/micro-quickstart/_common/common.runtime.properties 将druid-hdfs-storage加入druid.extensions.loadList。 配置Deep storage在OBS中的存储路径。 配置OBSA-HDFS插件。 在官方Github下载OBSA-HDFS插件:下载地址,然后拷贝到extensions/druid-hdfs-storage/ 目录。 在配置目录conf/druid/single-server/micro-quickstart/_common/下增加hdfs-site.xml,配置如下(其中endpoint按照桶所在的实际endpoint填写): 启动Druid服务。
  • 应用场景 一般情况下,用户会通过OBS提供的桶访问域名(例如https://bucketname.obs.cn-north-4.myhuaweicloud.com)或者绑定的自定义域名来访问OBS。 但在某些场景下,用户需要通过固定的IP地址访问OBS,例如:某些企业出于安全考虑,对于可访问的外部地址需要设置黑白名单,而这个时候对于OBS的访问则需要一个固定的IP地址。同样出于安全考虑,华为云OBS桶访问域名通过DNS解析的IP地址是会发生变化的,所以用户无法获取某个桶长期有效的固定IP地址。 此时,可以通过在ECS上搭建Nginx反向代理服务器,来实现通过固定IP地址访问OBS。
  • 备份流程 安装和预配置备份软件 在备份SAP HANA场景下,需要安装和配置备份服务器(CommServe)、备份介质(MediaAgent)及SAP HANA备份客户端代理(iDataAgent)三个组件。 创建备份存储空间(OBS桶) 登录OBS控制台,创建一个桶,作为备份数据存储空间。详细创建桶操作请参见创建桶。 在CommCell Console上创建云存储库,输入OBS终端节点地址、访问密钥、桶名,用以将Commvault的备份介质(MediaAgent)与OBS关联。 CommCell Console是用于管理CommCell环境、监视和控制活动作业以及查看与活动相关的事件的图形用户界面。 制定Commvault备份策略 在Commcell Console上创建备份策略,指定数据备份的周期、时间以及加密方式等。 检查备份执行情况 备份策略执行期间,用户可以通过Commcell Console查看备份执行情况。 (可选)执行数据恢复 在SAP HANA源机上执行数据恢复。 Commvault的具体操作请参见Commvault官方文档。
  • 逻辑架构 此处以使用Commvault备份本地单节点部署的SAP HANA为例,其逻辑架构如图1所示。 图1 逻辑架构 逻辑架构中各组件说明如表1所示: 表1 组件说明 Name 说明 iDataAgent (iDA) 备份客户端代理,Commvault备份软件的组成部分,部署在SAP HANA节点上,负责获取SAP HANA上需要备份的数据。 CommServe (CS) 备份服务器,Commvault备份软件的组成部分,部署在备份管理节点,负责全局备份策略的制定和备份业务的调度。 Media Agent (MA) 备份介质,Commvault备份软件的组成部分,部署在备份业务节点,负责直接将备份数据存储至OBS。 OBS 在备份场景下OBS负责存储备份数据,桶是OBS中存储数据的容器,最终数据都存储在OBS桶中。 一个CommCell是一个备份管理域 ,是软件的逻辑组合 ,包含获取数据 、传输数据 、管理数据和信息的所有软件组件。
  • 资源与成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 必选 OBS:存放图片、软件包等静态资源的桶,存储类别为“标准存储”或“低频访问存储”(归档与深度归档存储不支持直接配置CDN加速),桶策略为“私有”。 CDN:提供点播加速。 DNS:通过在域名服务商处配置CNAME记录,将加速域名以CNAME方式指向CDN服务中对应的CNAME域名,域名解析生效后,该域名的所有请求都将转向CDN节点。 网站域名:根据中国《互联网管理条例》的要求,此域名必须在工信部已备案并在有效期内才可以使用CDN加速。 成本规划 必选 OBS费用:详见OBS计费说明。 CDN费用:详见CDN计费说明。 可选 回源流量包:当回源获取数据时,CDN访问OBS会产生回源流量。OBS提供回源流量包,可以减少回源流量产生的流量费用。 须知: 本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台显示为准。
  • 迁移示例 阿里云OSS迁移至华为云OBS 本方案介绍了如何将阿里云对象存储(Object Storage Service,简称OSS)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 腾讯云COS迁移至华为云OBS 本方案介绍了如何将腾讯云对象存储(Cloud Object Storage,简称COS)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 七牛云迁移至华为云OBS 本方案介绍了如何将七牛云对象存储(Kodo)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 百度云BOS迁移至华为云OBS 本方案介绍了如何将百度云对象存储BOS(Baidu Object Storage,简称BOS)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 优刻得US3迁移至华为云OBS 本方案介绍了如何将优刻得对象存储(US3)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 金山云KS3迁移至华为云OBS 本方案介绍了金山云对象存储(Kingsoft Standard Storage Service,简称KS3)上的数据迁移到华为云对象存储OBS。 具体方案请参见操作教程。 HTTP/HTTPS数据源迁移至华为云OBS 本方案介绍了如何将网络资源迁移至华为云对象存储OBS。 具体方案请参见操作教程。
  • 云专线方式 云专线方式由用户自己购买云专线服务(Direct Connect,DC),直接将用户本地的网络与华为云网络打通,实现专线直接访问OBS等服务。云专线方式适用于需要频繁或实时地将本地数据搬迁至OBS的场景。专线提供的低时延、高带宽,可以满足用户随时上传数据至OBS的需求。 图1 云专线方式搬迁数据示意图 创建OBS桶 登录OBS控制台,创建一个或多个用于存储用户数据的桶。 开通云专线服务 登录云专线控制台,根据业务需求填写专线申请并提交订单,待管理员审核通过后,用户支付订单,联系运营商安排工程师接通两端物理线路,华为工程师配合进行连接配置。具体操作步骤请参见开通云专线。 配置VPC终端节点 在VPC终端节点中创建DNS终端节点和OBS终端节点,在本地数据中心配置DNS转发规则、DNS路由以及OBS路由。具体操作参见配置通过内网访问OBS服务的终端节点。 仅“拉美-墨西哥城一”、“拉美-圣保罗一”和“拉美-圣地亚哥”区域支持服务类别选择“云服务”购买连接OBS的终端节点,详情参见购买连接OBS的终端节点。 其他区域请提交工单寻求技术支持,获取终端节点服务名称。 启动数据传输 专线搭建成功并完成VPC终端节点配置后,用户便可以通过控制台、工具、API、SDK等多种方式将本地数据上传至OBS。 父主题: 搬迁本地数据至OBS
  • 配置自定义域名 单击桶名称进入“对象”页面,在左侧导航栏选择“域名管理”。 单击页面上方的“配置自定义域名”,如果没有绑定自定义域名也可以在页面下方的配置自定义域名卡片中单击“配置自定义域名”,在“用户域名”输入“www.example.com”,如图1所示。 图1 配置自定义域名 单击“确定”。 根据页面提示,支持单击“一键解析”,或手动完成解析CNAME,单击右下角的“我已了解”,如图2所示。 华为云域名支持一键解析添加CNAME记录;非华为云域名不支持一键解析,请用户自行配置解析规则。 图2 解析CNAME (可选)配置CDN加速。 CDN加速需收费,具体请参见CDN价格说明。 在已绑定的自定义域名操作列,单击“开启加速”。 根据您的业务情况选取对应的“服务范围”和“业务类型”。 在“其他信息”栏目,勾选开启静态网站托管。 单击“确定加速”。 (可选)如果开启了CDN加速,需要按照以下步骤配置CDN加速。 在已绑定的自定义域名操作列,单击“管理CDN加速”。 在打开的CDN控制台页面,单击域名,然后再单击“高级配置”,进入域名高级配置页面。 在“高级配置”中的“HTTP header配置”中,添加“Content-Disposition”响应头,取值为“inline”。 父主题: 实施步骤
  • 方案优势 华为云AI云存储解决方案的主要优势如下表所示。 表1 华为云AI云存储解决方案的主要优势 序号 主要优势 详细描述 1 存算分离,资源利用率高 GPU/NPU算力和SFS Turbo存储解耦,各自按需扩容,资源利用率提升。 2 SFS Turbo高性能,加速训练过程 训练数据集高速读取,避免GPU/NPU因存储I/O等待产生空闲,提升GPU/NPU利用率。 大模型TB级Checkpoint文件秒级保存和加载,减少训练任务中断时间。 3 数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 训练任务开始前将数据从OBS导入到SFS Turbo,训练过程中写入到SFS Turbo的Checkpoint数据异步导出到OBS,均不占用训练任务时长。 SFS Turbo和OBS存储服务之间数据直接导入导出,无需部署外部数据拷贝机器及工具。 4 冷热数据自动流动,降低存储成本 SFS Turbo支持自定义数据淘汰策略,冷数据自动分级到OBS,释放高性能存储空间用于接收新的热数据。 访问冷数据时SFS Turbo从OBS自动加载数据提升访问性能。 5 多AI开发平台、生态兼容 pytorch、mindspore等主流AI应用框架,kubernetes容器引擎、算法开发场景通过文件语义访问共享数据,无需适配开发。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。
  • 方案架构 针对AI训练场景中面临的问题,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案,如图所示,华为云高性能文件服务SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。 图1 基于OBS+SFS Turbo的华为云AI云存储解决方案
  • 应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。 从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及AI算力规模呈现出指数级的爆发增长,对存储基础设施也带来全新的挑战。 高吞吐的数据访问挑战:随着企业使用 GPU/NPU 越来越多,底层存储的 IO 已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例,PyTorch默认会通过文件接口访问数据,AI算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。
  • 更新静态文件 登录OBS管理控制台。 在桶列表中单击待操作的桶,进入对象页面。 单击“上传对象”,或选择待更新文件所在文件夹后单击“上传对象”,系统将弹出如图2所示对话框。 图2 上传对象 添加待上传文件。 不可加密上传静态网站文件。 存储类别建议选择“标准”。如果静态网站文件的存储类别为“归档存储”,则需要先恢复才能被访问,具体恢复步骤请参见恢复归档存储文件。 单击“上传”完成文件上传。 在同一路径下新上传的同名文件会作为“最新版本”显示在对象列表,每次访问此文件时,都是访问的此文件的最新版本,以此达到更新静态网站文件的效果。
  • DES磁盘方式 DES磁盘方式同样采用离线的方式将用户数据磁盘(USB、eSATA接口的磁盘等)快递至华为云,实现数据高效传输。磁盘方式适用于30TB以下的数据量搬迁。 图1 DES磁盘方式搬迁数据示意图 创建OBS桶 通过OBS控制台或OBS Browser+创建桶,用于存放原始数据。 创建DES磁盘方式服务单 登录DES控制台,创建一个磁盘方式的服务单。然后将DES提供的签名文件导入本地数据磁盘并邮寄给华为云数据中心。 启动数据传输 华为云数据中心收到用户的磁盘并将磁盘挂载到物理服务器后,会短信通知用户填写访问密钥(AK和SK)来启动数据上传。数据传输完成后,用户可以通过DES控制台和OBS控制台两种途径查看传输结果。同时华为云数据中心也会将用户磁盘回寄给用户。 具体操作步骤请参见磁盘方式详细指导。 父主题: 搬迁本地数据至OBS
  • 应用场景 随着大数据技术的飞速发展,对数据价值的认识逐渐加深,大数据已经融入到了各行各业。根据相关调查报告数据显示,超过39.6%的企业正在应用大数据并从中获益;超过89.6%的企业已经成立或计划成立相关的大数据分析部门;超过六成的企业在扩大大数据的投入力度。对各行业来讲,大数据的使用能力成为未来取得竞争优势的关键能力之一。 在大数据场景下,数据已成为新资产,智能已成为新生产力。企业迫切需要完成数字化转型,提高生产力,使数据资产发挥最大价值。而传统企业在业务未上云之前,业务部署和数据存储往往都在本地IDC机房的多个集群,且一台服务器同时提供计算和存储能力,这种方式导致的如表1所示的几个关键问题,已成为企业数字化转型的阻碍。 表1 传统企业在大数据场景面临的关键问题 序号 关键问题 详细描述 1 多集群数据共享难 企业数据往往分别存储在IDC多个集群,存在如下问题: 无全局视图,数据只能在集群内部使用。 拷贝是跨集群数据共享的唯一途径,数据拷贝耗时长。 公共数据集多份存储,数据冗余。 2 计算存储资源绑定,导致资源浪费 计算和存储资源无法均衡,当计算和存储需求不一致时,只能等比扩容,势必造成一种资源的浪费。 3 数据三副本存储,利用率低,成本高 Hadoop分布式文件系统(HDFS)使用三副本保存数据,磁盘空间利用率仅33%,单盘利用率低于70%。
  • 方案优势 相比传统企业在本地IDC机房部署大数据业务,华为云数据存算分离方案的主要优势如表2。 表2 华为云大数据存算分离相比传统大数据方案的优势 序号 主要优势 详细描述 1 融合高效,协同分析 通过统一的权限控制,实现多集群间的数据共享。 数据“0”拷贝。 大数据和AI一体化,减少作业耗时。 2 存算分离,资源利用率高 计算存储解耦,支持独立扩容或缩容,计算资源可弹性伸缩,资源利用率提升。 3 数据EC冗余存储,利用率高,成本低 对象存储服务OBS支持利用率最高的分布式数据容错技术Erasure code,磁盘利用率大幅提升,数据存储空间需求远低于三副本。 此外,对象存储服务OBS提供了OBSFileSystem插件(OBSA-HDFS),可与上层大数据平台无缝对接,实现业务零改造。 OBSFileSystem的主要作用:提供HDFS文件系统的相关接口实现,让大数据计算引擎(Hive、Spark等)可以将OBS作为HDFS协议的底层存储。 图2 存算分离方案中的OBSFileSystem OBS服务支持对象存储桶(对象语义)和并行文件系统(POSIX文件语义),在大数据场景下建议选择并行文件系统。并行文件系统支持POSIX文件语义,通过OBSFileSystem封装,相较对象语义增加Rename、Append、hflush/hsync接口,实现完善的HDFS语义,为大数据计算提供了更好的性能。 基于上述优势,华为云存算分离大数据方案相比传统大数据方案,在同样的业务规模下所使用的计算资源、存储资源以及服务器数量都会有明显下降,同时资源利用率也能得到显著提升,可帮助企业降低业务综合成本。
共100000条