paip.hadoop的应用研究总结


		paip.hadoop的应用研究总结
 
 
作者Attilax ，  EMAIL:1466519819@qq.com 
来源：attilax的专栏
地址：http://blog.csdn.net/attilax
 
 
 
 
introduce
////////////////////////
Hadoop是项目的总称[4]。主要是由HDFS和MapReduce组成。Hadoop 是一个Java实现
HDFS是Google File System（GFS）的开源实现。
MapReduce是Google MapReduce的开源实现。  并行计算框架
HBase: 类似Google BigTable的分布式NoSQL列数据库。（HBase和Avro已经于2010年5月成为顶级 Apache 项目）
 
 
 
 
实现详细
/////////////////////
Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase，提供分别实现Map和Reduce的两个类，并注册Job即可自动分布式运行
 
-------------DFS
把节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。这些操作是透明的，与普通的文件系统API没有区别。
Hadoop的HDFS实现了google的GFS文件系统，NameNode作为文件系统的负责调度运行在master，DataNode运行在每个机器上
---------MapReduce
 
 
MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样， MapReduce的run-time系统会解决输入数据的分布细节，跨越机器集群的程序执行调度，处理机器的失效，并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理或者分布式系统的经验，就可以处理超大的分布式系统得资源。
MapReduce则是JobTracker节点为主，分配工作以及负责和用户程序通信。，JobTracker作为MapReduce的总调度运行在master，TaskTracker则运行在每个机器上执行Task。
 
 
--------------HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。
 
 
tool
////////////////////
EasyHadoop 是一个Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。
 
 
EasyHadoop 由前暴风影音数据团队修湘调研,向磊编写，以GPL协议进行开源
 
 
文档与社区
////////////////
http://www.easyhadoop.com/
 
 
使用流程：、
//////////////////////////
  作为Hadoop程序员，他要做的事情就是：
    1、定义Mapper，处理输入的Key-Value对，输出中间结果。
    2、定义Reducer，可选，对中间结果进行规约，输出最终结果。
    3、定义InputFormat 和OutputFormat，可选，InputFormat将每行输入文件的内容转换为Java类供Mapper函数使用，不定义时默认为String。
    4、定义main函数，在里面定义一个Job并运行它。
 
 
 
 
来源于Google的数据设施三项核心技术
///////////////////
Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个：
⒈GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。
⒉MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。
⒊BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。
以上三个设施Google均有论文发表。

补充：综合编程 , 其他综合 ,