什么是MRS

大数据是人类进入互联网时代以来面临的一个巨大问题：社会生产生活产生的数据量越来越大，数据种类越来越多，数据产生的速度越来越快。传统的数据处理技术，比如说单机存储，关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题，Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台，可以充分利用集群的计算和存储能力，完成海量数据的处理。企业自行部署Hadoop系统有成本高，周期长，难运维和不灵活等问题。

针对上述问题，华为云提供了大数据MapReduce服务（MRS），MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务，完全兼容开源接口，结合华为云计算、存储优势及大数据行业经验，为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，并具备在后续根据业务需要进行定制开发的能力，帮助企业快速构建海量数据信息处理系统，并通过对海量信息数据实时与非实时的分析挖掘，发现全新价值点和企业商机。

存算分离介绍

MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下，用户将数据存储在OBS服务中，使用MRS集群仅作数据计算处理的存算分离模式。

大数据存算分离场景，请务必使用OBS并行文件系统，使用普通对象桶会对集群性能产生较大影响。

存算分离使用流程

1、配置存算分离集群。

客户端安装在集群内节点：

MRS支持用户将数据存储在OBS服务中，使用MRS集群仅作数据计算处理的存算模式。MRS可通过IAM服务的“委托”机制，或直接在集群中配置AK/SK两种方式访问OBS。

配置存算分离集群（委托方式）：通过为MRS集群绑定ECS委托方式访问OBS，避免了AK/SK直接暴露在配置文件中的风险。

配置存算分离集群（AK/SK方式）：在MRS集群中配置AK/SK，AK/SK会明文暴露在配置文件中，请谨慎使用。

客户端安装在集群外节点：

集群外客户端访问OBS：对于集群外节点的客户端，如果想要访问OBS，可以通过Guardian组件获取AK/SK实现。Guardian组件是MRS的自研组件，可以帮助集群外的客户端访问OBS的临时AK/SK。

2、使用MRS存算分离集群。

当前支持访问OBS的组件为Flink、Flume、Hadoop、Hive、Spark、Sqoop、Hudi。

使用存算分离集群

Flink对接OBS文件系统

HDFS客户端对接OBS文件系统

Hive对接OBS文件系统

Spark2x对接OBS文件系统

Hudi对接OBS文件系统

MapReduce对接OBS文件系统

MRS集群存算分离使用相关教程视频

MapReduce服务 MRS