浅析Project Savanna：如何让Hadoop运行在OpenStack之上

帮
助
中
心

网站公告

新闻动态

域名注册

虚拟主机

企业邮箱

数据库

云服务器

备案指南

阿里云应用开发

首页 » 帮助中心 » 云服务器 » 阿里云应用开发

浅析Project Savanna：如何让Hadoop运行在OpenStack之上

发布日期：2016-3-15 22:3:10

　　浅析Project Savanna：如何让Hadoop运行在OpenStack之上

　　MapReduce实现的产业标准基本上已经是Apache Hadoop，并且各个机构都在广泛采用，而Savanna项目旨在让用户能够在OpenStack上运行和管理Hadoop集群。值得一提的是，Amazon通过EMR(Elastic MapReduce)提供Hadoop服务已经达到数年之久。

　　用户需要给Savanna提供一些信息来建立集群，比如说，集群拓扑、Hadoop版本、节点硬件详情以及一些其它的信息。在用户提供这些参数之后，Savanna将帮助用户在几分钟之内建立起集群，同样还能够帮助用户根据需求对集群进行扩展(增加或者删除工作节点)。

　　一、方案针对下面几种用例：

　　A、为Dev和QA快速配置Hadoop集群

　　B、利用通用OpenStack IaaS云中从未使用过的计算能力

　　C、为专用或突发性的分析负载提供“分析即服务”(类似AWS中的EMR)。

　　二、主要特性如下：

　　1)、通过REST API进行管理，用户界面作为OpenStack Dashboard的一部分。

　　2)、作为OpenStack组件出现

　　3)、持多种Hadoop分布：

　　a、集成了提供商特定的管理工具，比如Apache Ambari或者Cloudera Managent Console。

　　b、作为Hadoop安装引擎的可插拔系统。

　　c、Hadoop配置的预定义模板来，具备配置参数功能。

　　三、细节说明

　　如下图所示：

　　Swift——可以作为需要进行Hadoop作业的预存储。

　　Nova——为Hadoop集群配置虚拟机。

　　Savanna产品主要于以下几个OpenStack组件进行通信：

　　Keystone——认证用户并提供安全令牌，用以与OpenStack通信，用以给用户分配特定的OpenStack权限。

　　Horizon——提供GUI以使用所有Savanna的特性。

　　Glance——用于储存Hadoop虚拟机镜像，每个镜像都包含了已安装的OS和Hadoop;预安装的Hadoop应该给予我们在节点布置上的便利。

　　四、常规工作流

　　Savanna会根据用例给用户提供两种不同抽象等级的API和UI：集群配置和分析作为服务。

　　A、集群快速配置的工作流程包括以下选项：

　　选择Hadoop版本

　　选择包含或者不包含预安装Hadoop的基础镜像

　　对于未预安装Hadoop的基础镜像，Savanna将提供整合了供应商工具的可插拔部署引擎。

　　定义集群配置，包括集群的大小和拓扑，并且设置不同的Hadoop参数(比如heap大小)。

　　将提供可配置的模板用以简易参数配置机制。

　　集群的配置：Savanna将提供虚拟机，安装和配置Hadoop。

　　集群上的操作：添加和移除节点。

　　在不需要时终止集群。

　　B、对于分析即服务的工作流程包括以下选项：

　　选择一个预定义版本

　　配置作业：

　　选择作业的类型：pig、hive、jar-file等等

　　提供作业脚本源或者是jar路径

　　选择输入和输出数据路径(最初只支持Swift)

　　为日志选择路径

　　设置集群大小限制

　　执行作业：

　　所有集群配置和作业执行都会清楚的呈现给用户

　　作业结束后会自动移除集群

　　取回计算结果(比如从Swift)

　　五、用户方面

　　在使用Savanna配置集群时，用户在两种类型实体上进行操作：Node Template和Cluster。

　　Node Template用于描述集群中的节点，包含了几个参数。节点类型就属于Node Template的属性之一，这将决定Hadoop将在节点上运行怎样的处理，确定节点在集群中的扮演的角色，它能够是TaskTracker、Job Tracker、NameNode、DataNode或者这些节点的逻辑组合。Node Template同样还保存了硬件参数，这些参数用于节点虚拟机以及Hadoop在节点上的工作内容。

　　每个节点模板和集群都归属于用户给其分配的tenant，用户只能访问已接入tenant里面的对象。用户只能编辑或删除他们建立的对象，当然管理员用户能够访问所有的对象，Savanna需要遵守同样的OpenStack访问策略。

　　Cluster实体用于描述Hadoop Cluster，描述了预装Hadoop虚拟机特征，用于集群的部署和集群拓扑。拓扑是节点模板和每个模板该部署节点数量的列表。关于拓扑，Savanna会验证集群中的NameNode和JobTracker是否唯一。

　　Savanna提供了多种Hadoop集群拓扑，Job Tracker和NameNode进程能够选择在一或两个独立的虚拟机上运行。同样集群可以包含多种类型的工作节点，工作节点能够同时充当TaskTracker和DataNode，同样也能够扮演一个角色。Savanna允许用户任意选项的组合去建立集群。

　　六、与Swift整合

　　在OpenStack中，Swift作为标准对象存储，类似Amazon S3。通常部署在实体主机上，Swift被作为“OpenStack上的HDFS”，具备很多使用的增强功能。

　　首先为Swift实现的文件系统： HADOOP-8545，这样的话Hadoop作业就能够运行在Swift上。在Swift方面，我们必须将请求更改为 Change I6b1ba25b。它将端点映射为Object、Account或者是Container列表，这样就能够将Swift与依赖数据位置信息的软件整合，从而达到避免网络开销。

　　七、可插拔部署和监控

　　监视功能来自供应商定制的Hadoop管理工具，Savanna整合了类似Nagios及Zabbix可插拔外部监视系统。

　　部署和监控工具都将被安装在独立的虚拟机上，从而允许单一的实例同时管理或监控不同的集群。

上一条: 微软是不是愿意将其Xbox游戏专营权交给WP呢?

下一条: 浅析Tsar开源：淘宝内部大量使用的系统监控工具

相关问题		热门问题
Docker在云容器技术领衔 Flocker 0.3.1 新特性 Apache Flume 1.5.2 发布发展中的 Docker 技术 OpenStack私有云DR的益处 Seafile 3.1.11 发布 Docker1.3改动简介 Seafile Client 3.1.10 发... 语音输入四强争霸 Apache Libcloud 0.16.0 ...		Windows Server 2012 防火墙... Linux下l2tp客户端xl2tpd安装配置... 阿里云ECS关于跨服务器快照/镜像的使用说明 Linux系统下测试UDP端口是否正常监听的办... 阿里云ECS通过安全组屏蔽/拦截/阻断特定IP... 如何解决ECS Windows提示显示设置无法... 如何解决ECS服务器误开启了防火墙导致远程连接... 阿里云数据库安全阿里云ECS通过安全组实现将不同账号同地域云服... ECS云服务器的自定义镜像FAQ

新手上路		支付方式	快速通道		服务与支持
域名常见问题	主机常见问题	在线支付	域名信息查询	备案信息查询	帮助中心
邮箱常见问题	云服务器问题	线下汇款	域名控制面板	主机控制面板	网络违法举报
数据库问题	备案问题		万网代备案系统		互联网不良信息举报

业务QQ： 11611616 673768899 673768855		联系电话： 023-61066666 66887777 89082222
离线联系： 13452888882 13452888883 13452888886		备案专线： 023-60887777 备案专员QQ：673768866
联系地址：重庆市九龙坡区石桥铺一城精英国际40层17号 Copyright © 重庆典名科技有限公司 023dns.com All Rights Reserved