什么是MRS

大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。

针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。

存算分离介绍

MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式。

大数据存算分离场景,请务必使用OBS并行文件系统,使用普通对象桶会对集群性能产生较大影响。

存算分离使用流程

1、配置存算分离集群。

客户端安装在集群内节点:

MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算模式。MRS可通过IAM服务的“委托”机制,或直接在集群中配置AK/SK两种方式访问OBS。

配置存算分离集群(委托方式):通过为MRS集群绑定ECS委托方式访问OBS,避免了AK/SK直接暴露在配置文件中的风险。

配置存算分离集群(AK/SK方式):在MRS集群中配置AK/SK,AK/SK会明文暴露在配置文件中,请谨慎使用。

客户端安装在集群外节点:

集群外客户端访问OBS:对于集群外节点的客户端,如果想要访问OBS,可以通过Guardian组件获取AK/SK实现。Guardian组件是MRS的自研组件,可以帮助集群外的客户端访问OBS的临时AK/SK。

2、使用MRS存算分离集群。

当前支持访问OBS的组件为Flink、Flume、Hadoop、Hive、Spark、Sqoop、Hudi。

MRS集群存算分离使用相关教程视频

MapReduce服务 MRS

05:47

MapReduce服务 MRS

04:08

MapReduce服务 MRS

MapReduce服务 MRS

04:29

MapReduce服务 MRS