多大数据量多少T数据才开始使用大数据hadoop处理
请问:多大的数据量时就需要用到hadoop处理了答案:看看网友的回答,通常1PB开始使用 1PB等于1024TB,至少1TB开始吧,太少了,也没啥意思。
一天1t,15天是15t,hadoop集群存储的时候安全备份数是3份这样就是45t,构架一个安全的hadoop集群最少要3台机器吧,如果用戴尔的poweredgec2100,单节点存储可达26tb,三台即可
我们大概是在每天处理1PB左右数据的时候,开始使用Hadoop的
直到有一天买再多的服务器也不能处理你的数据的时候。。。我建议重新设计你的代码,然后再看能不能用hadoop...
1TB/天可以开始学习研究hadoop
如果你的数据互相之间的关联度很大,必须是全部载入内存才能处理的话,就不适合hadoop平台了,即使你设计了很复杂的逻辑来解耦,运行速度也不一定提高很多
Mysql并不适合大数据存储和查询。
2017年 淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,截止2011年9月,数量总量已经超过17个PB,每天净增长20T左右。每天在Hadoop集群运行的MapReduce任务有超过4万(有时会超过6万),其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系统、排行榜等等。这些任务一般在凌晨1点左右开始执行,3-4个小时内全部完成。每天读数据在2PB左右,写数据在1PB左右
2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。
大数据领域两大最主流集群管理工具Ambari(免费的)和Cloudera Manger(商业要花钱)