华为云用户手册

  • 配置ModelArts网络关联SFS Turbo ModelArts网络关联SFS Turbo后,可直接在ModelArts的Notebook开发及训练环境中挂载SFS Turbo共享文件系统,并访问其中的数据。 登录ModelArts管理控制台,创建网络并打通创建资源中创建的创建虚拟私有云和子网,详细步骤参见ModelArts网络。 单击1中创建生成的资源池“网络”所在行的“更多”,选择“关联sfsturbo”。 在“关联sfsturbo”弹窗中,选择创建资源中创建的SFS Turbo HPC型文件系统。 图2 关联SFS Turbo 选择完成后,单击“确定”创建关联。 使用过程中请不要解除关联,解除关联会导致ModelArts资源池无法访问SFS Turbo文件系统中的数据。 一个SFS Turbo文件系统最多可关联1个网络。
  • 配置SFS Turbo数据自动导出到OBS桶 配置自动导出后,训练过程中周期性写入SFS Turbo文件系统的Checkpoint模型文件会自动以异步方式导出到关联的OBS桶中进行长期保存,无需手工导出,异步导出方式不会占用上层训练任务时间。 SFS Turbo的自动导出功能当前处于受限使用状态,请提交工单联系技术支持人员进行配置。 文件导出速度受OBS服务的写入带宽上限影响,默认是16Gbit/s,如果大模型训练生成的Checkpoint文件过大、导出速度过慢,可提交工单申请调大OBS服务的写入带宽。 父主题: 基本配置
  • 配置SFS Turbo数据淘汰策略 HPC型文件系统绑定OBS后端之后,建议开启缓存数据淘汰功能。开启该功能,系统将自动释放HPC型文件系统上设定时间内没有访问的文件所占用的存储空间。释放之后,文件的数据块已清除(仅保留元数据),不占用HPC型文件系统上的存储空间,再次访问该文件数据时,将重新从OBS中按需加载。 登录SFS管理控制台。 在文件系统列表中,单击创建的HPC型文件系统名称,进入文件系统详情页面。 在“基本信息”页签,设置冷数据淘汰时间。 图1 设置冷数据淘汰时间 只有已经导出到OBS且满足淘汰时间的数据才会被淘汰。 父主题: 基本配置
  • 操作流程 本文档介绍面向AI场景如何使用OBS+SFS Turbo的存储加速,流程如图1所示。 图1 面向AI场景使用OBS+SFS Turbo的存储加速方案步骤 表1 面向AI场景使用OBS+SFS Turbo的存储加速流程说明 序号 步骤 说明 1 规划组网和资源 此步骤请提交工单联系技术支持人员进行支撑配置。 2 创建资源 创建VPC:创建1个虚拟私有云和子网。 创建SFS Turbo HPC型文件系统:创建1个SFS Turbo文件系统,文件系统类型选择“HPC型”。 创建OBS桶:创建1个OBS桶,存储类别为“标准存储”,桶策略为“私有”。 创建ModelArts资源池:创建1个专属资源池。 3 基本配置 配置ModelArts和SFS Turbo间网络直通。 创建委托授权ModelArts云服务使用SFS Turbo。 配置ModelArts网络关联SFS Turbo。 配置SFS Turbo和OBS联动。 配置SFS Turbo数据自动导出到OBS桶。 配置SFS Turbo数据淘汰策略。 4 训练 上传数据至OBS并预热到SFS Turbo中。 创建训练任务。 5 例行运维 使用OBS+SFS Turbo的存储加速方案的过程中,您可以进行采取以下运维措施,保证系统正常高效运行: SFS Turbo容量监控及告警。 SFS Turbo性能监控。 调整SFS Turbo数据淘汰策略。 SFS Turbo容量及性能扩容。 OBS性能监控。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速方案设计和实践
  • SFS Turbo容量及性能扩容 对于SFS Turbo HPC型,存储性能规格是每TB单位容量来提供一定的带宽吞吐,因此当SFS Turbo HPC容量不足时,需要通过容量扩容来提高性能吞吐。 登录SFS管理控制台,在左侧导航窗格中选择“SFS Turbo”。 在文件系统列表中,单击要扩容的文件系统所在行的“容量调整”或“扩容”,弹出对话框。 图1 SFS Turbo HPC型容量调整 根据业务需要,在“新容量”文本框中重新设置文件文系统的容量。 在弹出对话框中确认容量调整信息后,单击“是”。 在文件系统列表中查看文件系统调整后的容量信息。
  • 常见问题 可以只使用SFS Turbo HPC型文件系统支撑AI训练吗? 当数据规模较小,不存在冷热数据分级诉求时,可以选择只使用SFS Turbo高性能文件存储。 可以基于OBS对象存储支撑AI自动驾驶、大模型训练吗? OBS为容量型存储,无法满足高性能AI训练,建议使用SFS Turbo HPC型高性能文件系统加速AI训练任务,节省AI算力费用。 一个文件系统最多支持同时挂载到多少台云服务器上? 一个SFS Turbo文件系统最多支持同时挂载到3000台云服务器上。 文件系统使用空间不足,可以扩容吗? SFS Turbo文件系统支持在线扩容,扩容过程中挂载文件系统可能失败,建议业务低峰期扩容。 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速方案设计和实践
  • 资源和成本规划 本节介绍最佳实践中资源规划情况,包含以下内容: 表1 资源和成本规划内容说明 维度 说明 资源规划 OBS:存放训练数据集、预训练模型等数据资源的桶,桶存储类别为“标准存储”,桶策略为“私有”。 SFS Turbo:类型为“HPC型”的文件系统。 ModelArts:AI开发平台,采用多机多卡分布式训练。 VPC:虚拟私有云和子网。 算法及数据:准备AI训练需要的算法及数据集,如Swin-Transformer算法,及ImageNet21K数据集。 说明: 为了提供最佳性能,建议SFS Turbo文件系统、OBS桶和ModelArts资源池选择在同一个可用区(region)。 成本规划 OBS费用:详见OBS计费说明。 SFS Turbo费用:详见SFS计费说明。 ModelArts费用:详见ModelArts计费说明。 须知: 本文提供的成本预估费用仅供参考,资源的实际费用以华为云管理控制台或价格计算器显示为准。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。 父主题: 面向AI场景使用OBS+SFS Turbo的存储加速方案设计和实践
  • 方案架构 针对AI训练场景中面临的问题,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储方案,如图所示,华为云高性能文件服务SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速OBS对象存储中的数据访问,并将生成的数据异步持久化到OBS对象存储中长期保存。 图1 基于OBS+SFS Turbo的华为云AI云存储解决方案
  • 方案优势 华为云AI云存储解决方案的主要优势如下表所示。 表1 华为云AI云存储解决方案的主要优势 序号 主要优势 详细描述 1 存算分离,资源利用率高 GPU/NPU算力和SFS Turbo存储解耦,各自按需扩容,资源利用率提升。 2 SFS Turbo高性能,加速训练过程 训练数据集高速读取,避免GPU因存储I/O等待产生空闲,提升GPU利用率 大模型TB级Checkpoint文件秒级保存和加载,减少训练任务中断时间。 3 数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 训练任务开始前将数据从OBS导入到SFS Turbo,训练过程中写入到SFS Turbo的Checkpoint数据异步导出到OBS,均不占用训练任务时长。 SFS Turbo和OBS存储服务之间数据直接导入导出,无需部署外部数据拷贝机器及工具。 4 冷热数据自动流动,降低存储成本 SFS Turbo支持自定义数据淘汰策略,冷数据自动分级到OBS,释放高性能存储空间用于接收新的热数据。 访问冷数据时SFS Turbo从OBS自动加载数据提升访问性能。 5 多AI开发平台、生态兼容 pytorch、mindspore等主流AI应用框架,kubernetes容器引擎、算法开发场景通过文件语义访问共享数据,无需适配开发。 如果您想了解更多本方案相关信息,或在方案使用过程中存在疑问,可通过方案咨询渠道,寻求专业人员支持。
  • 应用场景 近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。 从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及AI算力规模呈现出指数级的爆发增长,对存储基础设施也带来全新的挑战。 高吞吐的数据访问挑战:随着企业使用 GPU 越来越多,底层存储的 IO 已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU 服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例,PyTorch默认会通过文件接口访问数据,AI算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。
  • 操作步骤 登录管理控制台。 在左侧导航中单击“定时任务”页面。 进入“定时任务”页面。 单击定时任务页面右上角“创建任务”。 弹出“创建定时任务”界面。 配置定时任务信息。 任务类型:选择“重启”。 强制执行重启任务:您设置好定时重启任务后,当到达定时时间点时,当前桌面有用户连接,为保证用户体验,系统不会执行重启,将自动顺延到下一个定时时间点,如果勾选后,系统到达定时时间点后,将会强制执行重启。 定时任务名称:用户自定义。 执行周期:支持以下几种周期,根据用户需求自行选择。 指定时间:可精确到某年某月某日某时某分某秒。 按天:可设置具体时间、间隔天数、过期时间。 按周:可设置具体日期、时间、过期时间。 按月:可设置具体月份、具体日期、时间、过期时间。 选择是否通知用户。 通知:执行6~10。 不通知:执行8~10。 设置“早于定时任务”时间,范围为1~10080分钟 根据所需输入通知消息内容,仅支持文本消息,范围为1~1024个字符。 点击“下一步:选择对象”。 跳转至“选择应用对象”界面。 在“可选对象”的搜索框中搜索桌面/桌面池名称并勾选。 单击“立即创建”。
  • 操作步骤 登录管理控制台。 在左侧导航中单击“定时任务”。 进入“定时任务”页面。 单击定时任务页面右上角“创建任务”。 弹出“创建定时任务”界面。 配置定时任务信息。 任务类型:选择“关机”。 强制执行关机任务:您设置好定时关机任务后,当到达定时时间点时,当前桌面有用户连接,为保证用户体验,系统不会执行关机,将自动顺延到下一个定时时间点,如果勾选后,系统到达定时时间点后,将会强制执行关机。 定时任务名称:用户自定义。 执行周期:支持以下几种周期,根据用户需求自行选择。 指定时间:可精确到某年某月某日某时某分某秒。 按天:可设置具体时间、间隔天数、过期时间。 按周:可设置具体日期、时间、过期时间。 按月:可设置具体月份、具体日期、时间、过期时间。 选择是否通知用户。 通知:执行6~10。 不通知:执行8~10。 设置“早于定时任务”时间,范围为1~10080分钟 根据所需输入通知消息内容,仅支持文本消息,范围为1~1024个字符。 点击“下一步:选择对象”。 跳转至“选择应用对象”界面。 在“可选对象”的搜索框中搜索桌面/桌面池名称并勾选。 单击“立即创建”。
  • 操作步骤 登录管理控制台。 在左侧导航中单击“定时任务”页面。 进入“定时任务”页面。 单击定时任务页面右上角“创建任务”。 弹出“创建定时任务”界面。 配置定时任务信息。 任务类型:选择“休眠”。 定时休眠当前只支持Windows操作系统。 强制执行任务:您设置好定时休眠任务后,当到达定时时间点时,当前桌面有用户连接,为保证用户体验,系统不会执行休眠,将自动顺延到下一个定时时间点,如果勾选后,系统到达定时时间点后,将会强制执行休眠。 定时任务名称:用户自定义。 执行周期:支持以下有几种周期,根据用户需求自行选择。 指定时间:可精确到某年某月某日某时某分某秒。 按天:可设置具体时间、间隔天数、过期时间。 按周:可设置具体日期、时间、过期时间。 按月:可设置具体月份、具体日期、时间、过期时间。 选择是否通知用户。 通知:执行6~10。 不通知:执行8~10。 设置“早于定时任务”时间,范围为1~10080分钟 根据所需输入通知消息内容,仅支持文本消息,范围为1~1024个字符。 点击“下一步:选择对象”。 跳转至“选择应用对象”界面。 在“可选对象”的搜索框中搜索桌面/桌面池名称并勾选。 单击“立即创建”。
  • 操作步骤 登录管理控制台。 在左侧导航中单击“定时任务”。 进入“定时任务”页面。 单击定时任务页面右上角“创建任务”。 弹出“创建定时任务”界面。 配置定时任务信息。 任务类型:选择“重建系统盘”。 定时任务名称:用户自定义。 重建方式:默认“重装系统”。 执行周期:支持以下有几种周期,根据用户需求自行选择。 指定时间:可精确到某年某月某日某时某分某秒。 按天:可设置具体时间、间隔天数、过期时间。 按周:可设置具体日期、时间、过期时间。 按月:可设置具体月份、具体日期、时间、过期时间。 是否通知用户:根据实际情况选择,选择“通知”时可根据需要配置“通知消息”内容。 仅Windows系统支持“通知消息”。 确认重装系统盘,请输入:重装系统盘。 选择是否通知用户。 通知:执行6~10。 不通知:执行8~10。 设置“早于定时任务”时间,范围为1~10080分钟 根据所需输入通知消息内容,仅支持文本消息,范围为1~1024个字符。 单击“下一步:选择对象” 跳转至“选择应用对象”界面。 单击“下一步:选择对象”后,首次会弹出授权说明: 云服务管理员权限:云桌面支持定时重建和弹性扩容,因此需要租户管理员权限。 同意授权后(首次授权即可),将在统一身份认证服务为您创建名为 workspace_admin_trust的委托,为保证服务正常使用,在使用定时任务、桌面池期间,请不要删除或者修改workspace_admini_trust委托,详见系统委托说明章节。 在“可选对象”的搜索框中搜索桌面/桌面池名称并勾选。 单击“立即创建”。
  • 操作步骤 1.在"App SDK下载"章节中,“表1 Android/iOS/Windows/Mac/Electron UI SDK资源下载路径”中下载的SDK的包; 2.下载SDK包到本地; 3.打开本地命令提示符框,输入如下命令,在本地生成已下载的SDK包的SHA256值,其中,“D:\hwmsdk-win-80.12.7.zip”为SDK包的本地存放路径和SDK包名,请根据实际情况修改。 certutil -hashfile D:\hwmsdk-win-80.12.7.zip SHA256 命令执行结果示例,如下所示: SHA256 的 D:\hwmsdk-win-80.12.7.zip 哈希: 85a691c46a56572ea092945e9565f7927e6c1b4c612b35d01b1c8a9524f8c498 CertUtil: -hashfile 命令成功完成。 对比查询的SDK包的SHA256值和下载后的SDK包的SHA256值。如果一致,则表示下载过程不存在篡改和丢包。
  • 任务状态说明 录制回放提供了多种任务状态,以便区分不同阶段的任务。 录制回放任务的状态和说明,请参见表1。 表1 录制回放任务状态和说明 状态 说明 创建中 正在创建数据复制服务需要用到的录制回放实例。 配置 回放实例创建成功,但还没有启动任务,可以继续配置任务。 等待启动 已经下发了定时启动任务到回放实例上,等待回放实例启动任务。 启动中 正在启动回放任务。 启动失败 录制回放任务启动失败。 解析中 正在解析流量文件。 回放中 正在进行录制回放。 回放失败 流量数据回放到目标数据库失败。 回放完成 所选择的流量文件的SQL已经全部回放到了目标数据库。 结束任务 释放该回放实例和资源。 结束任务失败 释放回放任务所使用的实例和资源失败。 已结束 回放任务所使用的实例释放成功。 对于创建失败的任务,DRS默认保留3天,超过3天将会自动结束任务。 对于未启动、状态为配置中的任务,DRS默认保留3天,超过3天DRS会自动删除后台资源,当前任务状态不变。当用户再次配置时,DRS会重新申请资源。 已删除的回放任务在状态列表中不显示。 对于回放完成状态的任务,用户可以通过编辑操作新增流量文件,修改任务配置信息后重新进行回放。 父主题: 任务生命周期
  • 操作步骤 登录性能测试服务控制台,在左侧导航栏中选择“PerfTest测试工程”。 在待编辑PerfTest测试工程所在行,单击工程名称进入测试工程详情页面。 选择“测试任务”页签,单击待启动任务操作栏的。 在“执行测试任务”对话框中,选择“企业项目”,如果个人账号无需选择。 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。 例如,启动压测任务时选定企业项目EPS1,则会生成对应EPS1下的话单。 当企业项目EPS1下有套餐包可以扣,则扣套餐内VUM。 当企业项目EPS1下没有套餐包或者超过了套餐包余量,则会看账号下是否存在未归集到企业项目的套餐包。如果有则从该套餐包下扣除,如果没有或者超出了该套餐包余量,则按套餐外按需计费。 在“执行测试任务”对话框中,选择“资源组类型”。 单击“启动”,启动测试任务。 (可选)测试任务执行后,单击“查看报告”或单击测试任务操作栏的,可以查看实时测试报告。
  • 调试测试用例 新增或修改用例后,可通过调试快速发现语法或配置错误,确保该模型在任务中可用。 登录性能测试服务控制台,在左侧导航栏中选择“PerfTest测试工程”。 在待编辑PerfTest测试工程所在行,单击工程名称进入测试工程详情页面。 选择“测试用例”页签,在左侧“用例列表”下选择待调试的测试用例。 单击页面右上角的“调试”。 选择对应的测试资源组作为执行器后单击“启动”。 单击“查看日志”查看测试用例调试的具体内容。 如果调试结果报错,可根据日志信息,修改用例后重新调试。 在“调试记录”页签,查看调试的历史操作记录。
  • 操作流程 云速建站搭建网站操作简单,让您轻松搭建属于自己的网站。 想要完成网站搭建与设计,实现可通过域名访问网站的流程如图1所示。 图1 搭建网站全流程 流程说明: 注册域名:包含购买域名和实名认证 购买域名:购买域名是指获得域名一段时间的使用权,域名一旦购买,不可退订、不可改名、不可注销。 信息模板实名认证(可选):工信部规定,所有新注册的域名在购买成功后5天内均需进行实名认证,否则会暂停解析。注册完成超过5个工作日的域名,仍然可以进行域名实名认证,待域名实名认证通过后1~2个工作日可恢复正常使用。如果域名注册完成后,域名的“服务状态”为“未实名认证”,则需要重新提交域名的实名认证。 开通网站:包括购买营销版站点、购买精美模板(可选)和安装模板。 购买营销版站点:购买站点相当于给网站购买相应的云空间和流量,云空间用于存放您制作网站时上传的图片和文章,流量用于控制网站能承受多少客户访问。 购买模板:模板分为免费模板和付费模板,付费模板是由设计师精心设计的网页呈现效果,购买的模板可以减少您对于网站样式的设计和开发。 安装模板:模板购买后不是立即生效,需要您安装模板后,才能在网站页面查看到模板的呈现效果。 设置网站后台:包含添加产品、设置配送方式和对接微信、支付宝等支付方式。 添加产品:为您的网站添加需要售卖的商品及其信息。 设置配送方式:当客户购买商品时,显示的快递费用和快递公司。 对接微信、支付宝等支付方式:网站对接微信、支付宝等方式,方便客户选择自己常用的方式付款。 设置网站前台:包含制作PC版网站前台、制作手机版网站前台和备份网站数据。 制作PC版网站前台:将模板的数据替换为您自己的数据,并在模板的基础上新增或者修改网站模块。 制作手机版网站前台:将PC版的网站内容生成手机版,当客户使用手机访问时自动适配到手机版。 备份网站数据:网站制作过程中建议经常备份网站数据,以便当您需要回退网站数据时,可以返回到备份的时间点。 网站备案:通过备案系统提交网站备案申请,获得ICP备案号。 根据工信部相关法律法规规定,部署在中国大陆节点的网站需要向管局提交备案申请,备案审核通过后才能开通网站。备案的管局审核需要3~20个工作日。 如果网站没有进行备案或者备案审核不通过,则对网站的访问请求会被阻断。 配置域名:包含域名解析和绑定域名。 域名解析:域名是为了方便记忆而建立的一套地址转换系统,要访问一台互联网上的服务器,必须通过IP地址来实现,域名解析就是将域名重新转换为IP地址的过程。 绑定域名:为网站绑定域名,客户可通过方便记忆的域名访问网站。
  • 建站规格 根据您的建站需求,可选择适合您的建站产品规格,请参见表1 建站规格。 表1 建站版本 产品 模板建站 定制建站 版本 多终端自适应版 多终端独立版 客户服务包 规格 入门版、标准版、推广版、企业版。 入门版、标准版、营销版、企业版。 基础版、专业版、企业版。 支持终端类型 PC、手机、小程序(网页版)。 PC、手机、微信公众号、多种小程序、APP。 PC、手机、小程序(网页版)。 是否支持终端独立编辑 是 是 是 网页编辑是否支持自适应(一端设计,多端适用) 是 否 是 是否包含交易功能 仅企业版支持交易功能,其他版本暂不支持交易功能。 标准版、营销版和企业版支持交易功能,其他版本暂不支持交易功能。 基于多终端自适应SAAS版本提供对应人工服务 是否包含知识付费 仅企业版支持知识付费功能,其他版本暂不支持知识付费功能。 仅营销版和企业版支持知识付费功能,其他版本暂不支持知识付费功能。 基于多终端自适应SAAS版本提供对应人工服务 模板是否免费 提供3300+免费模板。 提供600+套免费模板和3000+套付费模板。 人工设计网站一次。 云服务器是否包含弹性公网IP 不包含云服务器弹性公网IP。 仅企业版包含云服务器弹性公网IP。 不涉及 适用场景 展示类网站(企业官网类网站)、服务类网站、知识付费类网站等。 展示类网站(企业官网类网站)、服务类网站、商城类网站。 展示类网站(企业官网类网站)、服务类网站、知识付费类网站等。
  • 问题定位步骤 在管理控制台使用VNC方式登录云服务器。 打开“运行”窗口,输入“perfmon -res”。 图1 打开资源监视器 在“资源监视器”中,单击“CPU”或“网络”,查看CPU占用率或带宽使用情况。 图2 资源监视器 查看CPU和带宽占用率较高的进程ID和进程名。 在控制台VNC登录页面单击“Ctrl+Alt+Del”,打开“Windows任务管理器”。 或打开“运行”窗口,输入“taskmgr”,打开“Windows任务管理器”。 以下步骤为您介绍在任务管理器中打开PID,找到进程的具体位置,核对是否异常进程。 选择“详细信息”选项卡。 单击PID进行排序。 在查找到的CPU或带宽占用率高的进程上右键单击“打开文件位置”。 定位进程是否是正常或是否为恶意程序。 图3 检查进程 打开“运行”窗口,输入“fltmc”,查看系统的文件系统过滤驱动。 下图以windows10操作系统为例,不同操作系统内置驱动不同,请以官网网站说明为准。如果安装了第三方的驱动,也会在这个列表中显示。 图4 查看系统驱动 以下步骤为您介绍如何查看驱动的来源,核对是否为不明来源驱动。 打开系统路径“C:\Windows\System32\drivers”。 在不明驱动名称上单击,选择“属性”,查看详细信息。 选择“数字签名”,查看驱动的来源。 图5 查看驱动来源
  • 分析处理 在您采取措施处理问题前,首先需要判断影响CPU或带宽占用率高的进程和驱动是否正常,并分类进行处理。 正常进程分析处理建议 如果您的操作系统是Windows 2008/Windows 2012,请检查内存大小,建议内存配置在2GB或以上。 检查后台是否有执行Windows Update的行为。 检查杀毒软件是否正在后台执行扫描操作。 核对云服务器运行的应用程序中是否有对网络和CPU要求高的需求,如果是,建议您变更云服务器的配置或修改带宽。 如果云服务器配置已经比较高,建议考虑云服务器上应用场景的分离部署,例如将数据库和应用分开部署。 异常进程分析处理建议 如果CPU或带宽利用率高是由于病毒、木马入侵导致的,那么需要手动结束进程。建议的处理顺序如下: 使用商业版杀毒软件或安装微软安全工具Microsoft Safety Scanner,在安全模式下扫描病毒。 安装Windows最新补丁。 使用MSconfig禁用所有非微软自带服务驱动,检查问题是否再次发生,具体请参考:如何在Windows中执行干净启动。 若服务器或站点遭受DDOS攻击或CC攻击等,短期内产生大量的访问需求。 您可以登录管理控制台执行以下操作: 查看Anti-DDOS攻击是否开启,并检查防护策略是否配置合适;如未配置,请参考:配置开启Anti-DDoS防护。 查看CC防护策略是否开启,并检查防护策略是否配置合适;如未配置,请参考:配置CC防护策略。 不明来源驱动分析处理建议 有些病毒和木马会通过文件系统过滤驱动加载。如果您发现不明来源的驱动,建议您卸载该驱动,也可以使用正规商业杀毒软件或第三方安全管理工具进行删除。 如果发现有无法删除的不明驱动,或者删除后还会再次出现的不明驱动,一般都是病毒或木马的驱动。如果使用正规商业杀毒软件或第三方安全管理工具也不能彻底删除,建议您重装操作系统,在这之前请做好数据备份避免造成损失。
  • 处理方法 登录管理控制台。 通过ECS的主机监控功能的“内存使用率”指标,查看云服务器内存使用情况确认云服务器内存情况,详细操作,请参见查看监控指标。 如果内存不足,建议建议扩容内存或者优化内存的使用,扩容内存可参考变更规格通用操作。 否则,执行步骤3。 以root用户登录云服务器,执行以下命令,排查message和dmesg日志。 dmesg -T cat /var/log/messages 如果出现如图1所示的cgroup相关报错打印,执行步骤8。 否则,执行步骤4。 图1 日志报错 执行以下命令,查看当前系统线程总数。 ps -efL | wc -l 执行以命令,将得到的两个值与步骤4查到的当前系统线程总数进行对比。 sysctl -a | grep pid_max sysctl -a | grep threads-max 如果当前系统线程总数接近这两个值其中一个,那么就需要对这pid_max、threads-max这两个参数进行调优。调优步骤请参考调优pid_max、threads-max参数。 否则,执行步骤6。 执行以下命令,确定报错进程的pid。 ps -ef | grep 报错进程名 执行以下命令,根据得到的pid检查该进程的limits配置: cat /proc/pid/limits 图2 确定进程limits配置 查看Max processes行,如果当前用户创建的所有线程数接近该值,那么需要对limits参数进行调优,调优步骤请参考调优limits参数。 否则,执行步骤8。 执行以下命令,根据日志的cgroup报错可以得到当前报错的具体的cgroup目录。 cat /sys/fs/cgroup/pids/拼接日志中报错目录/pids.max cat /sys/fs/cgroup/pids/拼接日志中报错目录/pids.current 图3 cgroup目录 示例如下: 执行以下命令,根据进程的pid查找对应的cgroup目录。 cat /proc/pid/cgroup 图4 根据pid查找对应的cgroup目录 返回结果中的pids行为“/user.slice/user-0.slice/session-5.scope/”,与/sys/fs/cgroup/pids/拼接,可得进程对应的cgroup目录为“/sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/”。 执行以下命令,根据日志的cgroup报错可以得到当前报错的具体的cgroup目录。 cat /sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/pids.max cat /sys/fs/cgroup/pids/user.slice/user-0.slice/session-5.scope/pids.current 如果pids.current接近pids.max,那么需要对cgroup参数进行调优,调优步骤请参考调优cgroup参数。 否则,请提交工单联系技术支持处理。
  • 问题描述 Linux操作系统的ECS,在执行命令或者日志打印时,出现如下报错信息: 错误信息1: root@localhost:~# free -g total used free shared buffers cached Mem: 94 43 51 0 0 0 Swap: 19 0 19 root@localhost:~# uname -a -bash: fork: Cannot allocate memory 错误信息2: xxxxsshd2[23985]: fatal: setresuid 20054: Resource temporarily unavailable xxxxsshd2[28377]: Disconnecting: fork failed: Resource temporarily unavailable xxxxsshd2[4484]: Disconnecting: fork failed: Resource temporarily unavailable 错误信息3: [root@ecs-xxxx ~]$ sudo docker info runtime/cgo: pthread_create failed: Resource temporarily unavailable SIGABRT: abort
  • 处理方法 在处理前,建议先禁用systemd-resolved服务。 方法一:手动修改/etc/resolv.conf文件。 以root用户登录ECS。 关闭并禁用systemd-resolved服务。 systemctl stop systemd-resolved systemctl disable systemd-resolved 默认的/etc/resolv.conf是软链接,删除重建为普通文件。 rm -rf /etc/resolv.conf 编辑/etc/resolv.conf,增加相关DNS配置。 vim /etc/resolv.conf 通过添加自定义的nameserver参数增加DNS配置,如下所示: nameserver 100.125.1.250 nameserver 100.125.129.250 将/etc/resolv.conf配置文件加锁,防止被dhcp或者其他服务更改。 chattr +i /etc/resolv.conf 方法二:使用NetworkManager根据dhcp获取的DNS信息(vpc子网中配置的DNS信息)维护/etc/resolv.conf文件。 关闭并禁用systemd-resolved服务。 systemctl stop systemd-resolved systemctl disable systemd-resolved 编辑NetworkManager配置文件,增加dns=default配置。 vim /etc/NetworkManager/NetworkManager.conf [main] plugins=ifupdown,keyfile dns=default [ifupdown] managed=true [device] wifi.scan-rand-mac-address=no 默认的/etc/resolv.conf是软链接,删除重建为普通文件。 rm -rf /etc/resolv.conf 重启NetworkManager,刷新/etc/resolv.conf文件。 systemctl restart NetworkManager 检查/etc/resolv.conf中的dns相关配置。 如果与云服务器所属子网下的DNS配置一致,代表修改成功。 您可以登录控制台,在弹性云服务器详情页,单击网卡区域的主网卡名称,即可跳转至子网控制台,切换至“基本信息”页签,即可查看到“DNS服务器地址”信息。 如果不一致,请提交工单联系技术支持处理。
  • 购买了直播CDN出流包,为什么还会从账户余额扣费? 这可能是由于您的CDN计费方式为“按带宽计费”、“按月结95带宽峰值计费”或“按日峰值月平均计费”导致的。 建议您在视频直播控制台的概览页将计费方式变更为“按流量计费”。 不同计费方式的生效时间存在差异,如下所示: 若由“月结95带宽峰值计费”或“日峰值月均计费”变更为“流量计费”模式,则新的计费方式将在次月1日零点生效。 若由“带宽计费”变更为“流量计费”模式,则新的计费方式将在次日零点生效。 “按流量计费”模式生效后,即可使用直播CDN出流包了。 父主题: 资源包相关
  • 视频直播有哪些计费项?如何知道自己需要支付哪些费用? 视频直播计费项可以分为基础费用和增值费用,详情请参见计费项。 基础费用:流量/带宽费用,即您开启直播后,使用直播加速服务产生的流量/带宽费用。您可以在视频直播控制台的概览页自行选择按流量或带宽计费。 增值费用:包含录制、转码、截图等费用,这几项费用仅在您使用这些功能时才产生。 建议您在使用直播服务前,先根据业务的实际情况购买直播套餐包。 父主题: 公共类
  • 操作场景 在用户意外修改、删除或需要找回数据时,集群用户需要对ClickHouse进行重大操作(如升级或迁移等)后,系统数据出现异常或未达到预期结果,导致ClickHouse组件全部故障无法使用,或者迁移数据到新集群的场景中,需要对ClickHouse元数据进行恢复数据操作。 集群用户可以通过FusionInsight Manager创建恢复ClickHouse任务。只支持创建任务手动恢复数据。 该功能仅MRS 3.1.0及之后版本支持。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复ClickHouse元数据,建议手动备份最新ClickHouse元数据后,再执行恢复ClickHouse元数据操作。否则会丢失从备份时刻到恢复时刻之间的ClickHouse元数据。 ClickHouse元数据恢复和业务数据恢复不能同时进行操作,否则会导致业务数据恢复失败。建议元数据恢复完成后再进行业务数据恢复。
  • 前提条件 检查ClickHouse元数据备份文件保存路径。 如果需要从远端HDFS恢复数据,需要准备备集群。如果主备集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主备集群部署为普通模式,则不需要配置互信。 主备集群中,从远端HDFS恢复至本地时,需要确保ClickHouse的HADOOP_RPC_PROTECTION配置项与HDFS的hadoop.rpc.protection配置项保持一致。
  • 重置admin密码 登录Master1节点。 (可选)若想要使用omm用户修改密码,请执行以下命令切换用户。 sudo su - omm 执行以下命令,切换到客户端目录,例如“/opt/Bigdata/client”。 cd /opt/Bigdata/client 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,使用kadmin/admin登录控制台。 kadmin -p kadmin/admin kadmin/admin的默认密码为“Admin@123”,首次登录后会提示该密码过期,请按照提示修改密码并妥善保存。 执行以下命令,重置admin用户密码。 cpw admin
共100000条