Hadoop入门&典型云平台介绍&安装——《Hadoop实战初级部分》学习笔记


Hadoop入门&典型云平台介绍&安装——《Hadoop实战初级部分》学习笔记
 
1、入门：
 
现在云计算比较火，为了赶时髦，买了个视频跟着学。
 
1、为什么学？
大数据，比如1分钟 twitter发超10w信息，facebook浏览量600w，还有如国内的taobao：尤其光棍节。
按需推送信息
更精确的推广告
 
现在做hadoop的还比较少，薪水会很高，如android刚出的时候。
 
2、什么是云计算？
网格、分布式、并行、网络存储、虚拟化、负载均衡等的合体，形成强大能力的系统，并借助SaaS、PaaS、LasS等模式分不到终端用户。如google搜索。
 
不是新东西，有点像ajax刚出的时候。
 
SaaS：软件即服务，如Salesforce的CRM、google搜索、gmail等
PaaS：平台即服务，也叫做中间件即服务，上层是SaaS、下层是LaaS，如GAE、SAE
LaaS：基础设施即服务，主要是虚拟化；如AWS、VmWare；按需（如流量、带宽）计费；
 
2、云计算核心技术
编程模型 Map-Reduce
海量数据分布存储技术
海量数据管理技术
虚拟化技术
云平台管理技术
 
2、典型云平台介绍
Google的云计算平台：主要MapReduce、GFS、BigTable。
IBM“蓝云”
Amazon弹性计算云；国内盛大云
 
特点
易管理
灵活性
高资源利用率
高可靠性
低成本
安全性
 
3、安装Hadoop
 
1、window上装
   （建议xp 玩玩就行了，实际要在linux）
1.1、装JDK（不要装到带空格等目录中。。）
1.2、安装cygwin
需要安装oenSSL、VIM、Base
1.3、在cygwin安装SSHD
  ssh-host-config
1.4、启动SSHD
  net start sshd
1.5、实现ssh无密码登录
   ssh-keygen
完成后会在~/.ssh/生成两个文件：id_dsa和id_dsa.pub
  Cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 完成
 
1.6、安装hadoop
  下载解压即可
1.7、配置
  先了解概念：
     HDFS NameNode 管理节点 DataNode 数据节点 SecondaryNameNode数据源信息备份整理节点
     MapReduce JobTracker 任务管理节点 TaskTracker 任务运行节点
   
     配置文件
        core-site.xml common属性配置
        hdfs-site.xml HDFS属性配置
        mapred-site.xml MapReduce属性配置
        hadoop-env.sh hadoop环境变量配置
 
修改hadoop-env.conf-à加 export JAVA_HONME
 
其他的修改下载ppt看吧，不记了。
 
接下来启动hadoop，还是看ppt吧，ppt上挺全的；
 
在win上边就是玩玩，实际环境还是linux。
 
2、linux上装
ubuntu开发即可，之前用过，挺好的；
 
1、安装jdk，jdk需要下bin结尾的那个
2、配置JAVA_HOME及PATH环境变量，具体请参考ppt，加到.bashrc  然后运行 . .hashrc
 
步骤和win上差不多。还没装ubuntu系统，目前就用win的吧。
 
3、HadoopUI
50070端口-àhdfs   50030--àjobTracker
HDFS通信端口à9000  MapReduce通信端口à9001
 
管理界面 
  http://localhost:50070 hdfs
  http://localhost:50030 mapreduce
 
通过UI可操作如文件系统、日志
 
4、word counter
1、生成两个文件 如input/file1 input/file2
2、在HDFS上建个目录，如hadoop fs –mkdir /tmp/input
3、把file1、分file放入HDFS  hadoop fs –put input/* /tmp/input
4、查看 hadoop fs –ls /tmp/input
5、执行wordcounter
 hadoop jar hadoop-example-1.0.0.jar wordcounter  /tmp/input /tmp/output
6、运行完查看结果
 hadoop fs –cat /tmp/output/part –r -00000