阿里云
服务器地域选择
发表主题 回复主题
  • 600阅读
  • 1回复

[干货分享]hadoop上云的冰与火

级别: 论坛编辑
发帖
120
云币
229
Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受;在企业己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部署。企业把业务系统与大数据系统在云上部署服务,Hadoop上云,一体化解决问题也是一大趋势。Hadoop加上云能碰出怎样的火花?欢迎大家提出问题或者自己的观点。 \?n4d#=$o  
tCkKJ)m  
w QV4[  
大家聊聊hadoop上云的冰与火 <>!Y[Xr^  
N =k}"2_=  
Y8*k18~  
以下是云栖聚能聊热议回答: P<Wtv;Z1Z  
Q@M>DA!d^V  
3$c Im+  
\FVm_)  
z^tws*u],5  
来自云栖网友:sures 'g3!SdaLF  
1、EMR的多租户是怎么解决的?可否具体点解释。2、EMR安全措施,如何打消客户的顾虑?3、EMR在典型行业场景应用方面做了哪些针对性的工作4、EMR易用性方面的举措,如何尽可能的做到让不太懂大数据的人也能使用?5、EMR和竞品的优势?比如亚马逊6、EMR在节省费用方面,虽然以往讲座中有提到,但不够清楚。将来能否写一系列博文,具体描述一下。相信对EMR推广和减轻咨询工作量都有益。 S1_X@[t  
Vfm (K  
.#py5&`%  
来自云栖网友:数梦梅西 Oy U[(  
1) 和ODPS相比的优势劣势在哪里? 用户会关心这两者的对比。比如做数仓来讲,ODPS和Hive在facade上其实大同小异;2) 使用的是否是开源版本还是阿里修改过的版本?用户是否可以自己选择自己定制的版本?3) 虚拟化的集群,我理解更适合跑离线作业,重点应该还是hive和MapReduce。不知道咱们EMR在投入上是否有倾斜。4) 建议引入类似zeppelin的系统(也许有了,我不太清楚:));5) 有没有考虑用户自己有集群,同时也用EMR,如何打通? G@4ro<  
*k&yD3br-V  
t:pgw[UJ  
来自云栖网友:封神 ?kOtK  
1、ODPS、EMR都是阿里云提供的产品,一个是自主研发,一个是对接开源。两者基本服务不同的群体,如果客户对开源比较有情结,不想被阿里云绑架,想用spark,那一般选择emr,如果线下有hadoop集群,一般推荐emr。 `5VEGSP]  
H@!\?5I  
ODPS sql在尽量跟hive做兼容,但是这个本事就是比较难的,hive本身不通版本都不兼容,且语法别多,很难完全兼容的。 ze%kP#c6!  
2、是阿里云自己修改过的版本,但是api不会修改的。 用户不可以自己定制版本的。 FlWgTn>  
3、云上为什么一定要计算。一般企业白天产生数据,晚上需要分析数据。阿里云iass,需要把水位提高,就必须要在云上做大数据服务。对于云上,其实 流式计算、内存计算、Hbase存储 比离线更加合适。离线很大程度上比较看重 IO,但是这个不是不能权衡的。基于ecs、oss也在低成本下也可以提供大数据方案的。 QG~4 <zy  
4、目前已经有zeppelin系统了,emr也在做交互式的系统。 $UgQ1Qc  
5、很多客户都有emr+自己的集群。很大程度上这个是过度方案,后续一般会全部迁移到emr的。 打通就是ecs在同一个安全组就可以了,比较简单。 f:/[  
'Q R @G  
D1Yc_  
来自云栖网友: :/F=j;o  
问题1:多租户从封神的回答来看还是走类似databricks的每套集群一个租户的思路,这种粒度似乎略粗,而且太多小集群无法解决大量数据的情况下数据的隔离、分享的需求。有没有考虑引入apache ranger这种权限控制的工具呢?对hdfs、hive、yarn都可以做到比较好的权限控制。 } Mh@%2$  
问题2:EMR上的HDFS还是3个副本吗?云盘自己有备份,讲道理的话,是不需要的。 :>@6\    
问题3:从数据开发的角度,目前阿里云的数据产品几乎可以涵盖所有的需求,看上去EMR似乎“政治不正确”。如何面对云上的ODPS的竞争呢? P>*B{fi^  
]u;Ma G=;  
(k{rn3,  
来自云栖网友:1277376506016181 Gp0B^^H$  
个人理解;Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其云计算环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。 J>H$4t#HX  
~/R,oQ1!g}  
?CaMn b8  
欢迎大家交流讨论,原话题入口 3J^"$qfSn  
]n8 5.DF  
8T:?C~"  
级别: 论坛版主
发帖
683
云币
834
只看该作者 沙发  发表于: 04-13
真应该好好了解一下大数据。
为了无法计算的价值
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
 
验证问题: 31 - 8 = ?
上一个 下一个