发表主题 回复主题
  • 308阅读
  • 1回复

[干货分享]hadoop上云的冰与火

级别: 小白
发帖
41
云币
73
Hadoop经过10年的发展,目前已经成为大数据技术的标准;云计算也发展了将近10年,已经被越来越多的企业接受;在企业己采购自己的年代,很多企业都会经历过业务部署物理机,再虚拟化,再跟大数据混合部署。企业把业务系统与大数据系统在云上部署服务,Hadoop上云,一体化解决问题也是一大趋势。Hadoop加上云能碰出怎样的火花?欢迎大家提出问题或者自己的观点。 Q-n8~Ey1a  
EU%,tp   
!: ^q_q4  
大家聊聊hadoop上云的冰与火 <;6{R#Tuh  
"FWx;65CR  
RqtBz3v  
以下是云栖聚能聊热议回答: R7kkth  
?: yz/9(  
 Zgo~"G  
`8ac;b  
d_,5;M^k  
来自云栖网友:sures #*'Qm  A  
1、EMR的多租户是怎么解决的?可否具体点解释。2、EMR安全措施,如何打消客户的顾虑?3、EMR在典型行业场景应用方面做了哪些针对性的工作4、EMR易用性方面的举措,如何尽可能的做到让不太懂大数据的人也能使用?5、EMR和竞品的优势?比如亚马逊6、EMR在节省费用方面,虽然以往讲座中有提到,但不够清楚。将来能否写一系列博文,具体描述一下。相信对EMR推广和减轻咨询工作量都有益。 6 Rl[M+Q  
sD:o 2(G*  
9%"7~YCDas  
来自云栖网友:数梦梅西 d+ jX49Vt  
1) 和ODPS相比的优势劣势在哪里? 用户会关心这两者的对比。比如做数仓来讲,ODPS和Hive在facade上其实大同小异;2) 使用的是否是开源版本还是阿里修改过的版本?用户是否可以自己选择自己定制的版本?3) 虚拟化的集群,我理解更适合跑离线作业,重点应该还是hive和MapReduce。不知道咱们EMR在投入上是否有倾斜。4) 建议引入类似zeppelin的系统(也许有了,我不太清楚:));5) 有没有考虑用户自己有集群,同时也用EMR,如何打通? a%T`c/C  
u^~7[OkE  
D%p*G5Bg3  
来自云栖网友:封神 r3l1I}  
1、ODPS、EMR都是阿里云提供的产品,一个是自主研发,一个是对接开源。两者基本服务不同的群体,如果客户对开源比较有情结,不想被阿里云绑架,想用spark,那一般选择emr,如果线下有hadoop集群,一般推荐emr。 L"qJZU  
tWIs |n  
ODPS sql在尽量跟hive做兼容,但是这个本事就是比较难的,hive本身不通版本都不兼容,且语法别多,很难完全兼容的。 v Y0bK-  
2、是阿里云自己修改过的版本,但是api不会修改的。 用户不可以自己定制版本的。 H648[H[k  
3、云上为什么一定要计算。一般企业白天产生数据,晚上需要分析数据。阿里云iass,需要把水位提高,就必须要在云上做大数据服务。对于云上,其实 流式计算、内存计算、Hbase存储 比离线更加合适。离线很大程度上比较看重 IO,但是这个不是不能权衡的。基于ecs、oss也在低成本下也可以提供大数据方案的。 7$'AH:K  
4、目前已经有zeppelin系统了,emr也在做交互式的系统。 /MGapmqV9  
5、很多客户都有emr+自己的集群。很大程度上这个是过度方案,后续一般会全部迁移到emr的。 打通就是ecs在同一个安全组就可以了,比较简单。 0%ul6LvM  
\Ii{sn9  
Xp:A;i9  
来自云栖网友: b=,B Le\  
问题1:多租户从封神的回答来看还是走类似databricks的每套集群一个租户的思路,这种粒度似乎略粗,而且太多小集群无法解决大量数据的情况下数据的隔离、分享的需求。有没有考虑引入apache ranger这种权限控制的工具呢?对hdfs、hive、yarn都可以做到比较好的权限控制。 MJ|tfQwhx  
问题2:EMR上的HDFS还是3个副本吗?云盘自己有备份,讲道理的话,是不需要的。 )`DVPudiy  
问题3:从数据开发的角度,目前阿里云的数据产品几乎可以涵盖所有的需求,看上去EMR似乎“政治不正确”。如何面对云上的ODPS的竞争呢? x]{P.7IO'  
D&G6^ME  
L  ;L:  
来自云栖网友:1277376506016181 u>*a@3$f  
个人理解;Hadoop现在已经广泛应用于包 括 FaceBook,Twitter, Yahoo! 等公司,通常情况下这些机群包括数以千计的服务器和数以万计的CPU。 Hadoop 作为基础云计算平台 ,包括了超过 100 个的用户可配置参数 ( 版本 0.19.2) , 而这些参数中很大一部分对所部署的 Hadoop 系统性能具有极大的影响。 平台即服务 (PaaS)主要关注软件框架或服务,提供在基础设施中进行“云”计算所用的 API。Apache Hadoop作为PaaS构建在虚拟主机上,作为云计算平台。 基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop 已被全球几大IT公司用作其云计算环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。 ~#r>@C  
k=]e7~!  
DYf QlA  
欢迎大家交流讨论,原话题入口 rNP;53FtZl  
B\J[O5},  
A{ +/$7vek  
级别: 论坛版主
发帖
673
云币
821
只看该作者 沙发  发表于: 04-13
真应该好好了解一下大数据。
为了无法计算的价值
发表主题 回复主题
« 返回列表上一主题下一主题

限100 字节
批量上传需要先选择文件,再选择上传
 
验证问题: 46 - 27 = ?
上一个 下一个