阿里云
服务器地域选择
发表主题 回复主题
  • 608阅读
  • 1回复

[干货分享]hadoop上云的冰与火

级别: 论坛编辑
发帖
120
云币
229
Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受;在企业己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部署。企业把业务系统与大数据系统在云上部署服务,Hadoop上云,一体化解决问题也是一大趋势。Hadoop加上云能碰出怎样的火花?欢迎大家提出问题或者自己的观点。 ?rt[ aK  
gk8 v{'0Er  
\+U;$.)3  
大家聊聊hadoop上云的冰与火 &*O'qOO<2  
};9/J3]m  
jc:=Pe!E  
以下是云栖聚能聊热议回答: N|)e {|k  
{GT5   
d<=!*#q;o  
P>~Usuf4  
.@;5"  
来自云栖网友:sures K9ih(fh)  
1、EMR的多租户是怎么解决的?可否具体点解释。2、EMR安全措施,如何打消客户的顾虑?3、EMR在典型行业场景应用方面做了哪些针对性的工作4、EMR易用性方面的举措,如何尽可能的做到让不太懂大数据的人也能使用?5、EMR和竞品的优势?比如亚马逊6、EMR在节省费用方面,虽然以往讲座中有提到,但不够清楚。将来能否写一系列博文,具体描述一下。相信对EMR推广和减轻咨询工作量都有益。 oIj/V|ByK  
FR'Nzi$  
Z{#3-O<a+n  
来自云栖网友:数梦梅西 M!gu`@@}F  
1) 和ODPS相比的优势劣势在哪里? 用户会关心这两者的对比。比如做数仓来讲,ODPS和Hive在facade上其实大同小异;2) 使用的是否是开源版本还是阿里修改过的版本?用户是否可以自己选择自己定制的版本?3) 虚拟化的集群,我理解更适合跑离线作业,重点应该还是hive和MapReduce。不知道咱们EMR在投入上是否有倾斜。4) 建议引入类似zeppelin的系统(也许有了,我不太清楚:));5) 有没有考虑用户自己有集群,同时也用EMR,如何打通? #] Do_Z  
9$[MM*r  
8>vNa  
来自云栖网友:封神 7}c[GC)F  
1、ODPS、EMR都是阿里云提供的产品,一个是自主研发,一个是对接开源。两者基本服务不同的群体,如果客户对开源比较有情结,不想被阿里云绑架,想用spark,那一般选择emr,如果线下有hadoop集群,一般推荐emr。 (C`nBiL<  
0?I  
ODPS sql在尽量跟hive做兼容,但是这个本事就是比较难的,hive本身不通版本都不兼容,且语法别多,很难完全兼容的。 ' MyJw*%b]  
2、是阿里云自己修改过的版本,但是api不会修改的。 用户不可以自己定制版本的。 *j1Skd.#At  
3、云上为什么一定要计算。一般企业白天产生数据,晚上需要分析数据。阿里云iass,需要把水位提高,就必须要在云上做大数据服务。对于云上,其实 流式计算、内存计算、Hbase存储 比离线更加合适。离线很大程度上比较看重 IO,但是这个不是不能权衡的。基于ecs、oss也在低成本下也可以提供大数据方案的。 M,{;xf  
4、目前已经有zeppelin系统了,emr也在做交互式的系统。 dYwEVu6q  
5、很多客户都有emr+自己的集群。很大程度上这个是过度方案,后续一般会全部迁移到emr的。 打通就是ecs在同一个安全组就可以了,比较简单。 w*@9:+  
ib]<;t  
u0[O /G  
来自云栖网友: Ut1s~b1  
问题1:多租户从封神的回答来看还是走类似databricks的每套集群一个租户的思路,这种粒度似乎略粗,而且太多小集群无法解决大量数据的情况下数据的隔离、分享的需求。有没有考虑引入apache ranger这种权限控制的工具呢?对hdfs、hive、yarn都可以做到比较好的权限控制。 jt3W.^6HO  
问题2:EMR上的HDFS还是3个副本吗?云盘自己有备份,讲道理的话,是不需要的。 3|3ad'  
问题3:从数据开发的角度,目前阿里云的数据产品几乎可以涵盖所有的需求,看上去EMR似乎“政治不正确”。如何面对云上的ODPS的竞争呢? I(j{D>v  
}+[!h=Bx  
<0l:B ;3  
来自云栖网友:1277376506016181 ~xPetkl@  
个人理解;Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其云计算环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。 y^{ 4}^u-^  
3XbFg%8YG  
GV9pet89yu  
欢迎大家交流讨论,原话题入口 xA n|OSe  
xw1,Wbu]  
6is+\  
级别: 论坛版主
发帖
683
云币
834
只看该作者 沙发  发表于: 04-13
真应该好好了解一下大数据。
为了无法计算的价值
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
验证问题: ECS是阿里云提供的什么服务? 正确答案:云服务器
上一个 下一个