Hadoop入门&典型云平台介绍&安装——《Hadoop实战初级部分》学习笔记
1、入门:
现在云计算比较火,为了赶时髦,买了个视频跟着学。
1、为什么学?
大数据,比如1分钟 twitter发超10w信息,facebook浏览量600w,还有如国内的taobao:尤其光棍节。
按需推送信息
更精确的推广告
现在做hadoop的还比较少,薪水会很高,如android刚出的时候。
2、什么是云计算?
网格、分布式、并行、网络存储、虚拟化、负载均衡等的合体,形成强大能力的系统,并借助SaaS、PaaS、LasS等模式分不到终端用户。如google搜索。
不是新东西,有点像ajax刚出的时候。
SaaS:软件即服务,如Salesforce的CRM、google搜索、gmail等
PaaS:平台即服务,也叫做中间件即服务,上层是SaaS、下层是LaaS,如GAE、SAE
LaaS:基础设施即服务,主要是虚拟化;如AWS、VmWare;按需(如流量、带宽)计费;
2、云计算核心技术
编程模型 Map-Reduce
海量数据分布存储技术
海量数据管理技术
虚拟化技术
云平台管理技术
2、典型云平台介绍
Google的云计算平台:主要MapReduce、GFS、BigTable。
IBM“蓝云”
Amazon弹性计算云;国内盛大云
特点
易管理
灵活性
高资源利用率
高可靠性
低成本
安全性
3、安装Hadoop
1、window上装
(建议xp 玩玩就行了,实际要在linux)
1.1、装JDK(不要装到带空格等目录中。。)
1.2、安装cygwin
需要安装oenSSL、VIM、Base
1.3、在cygwin安装SSHD
ssh-host-config
1.4、启动SSHD
net start sshd
1.5、实现ssh无密码登录
ssh-keygen
完成后会在~/.ssh/生成两个文件:id_dsa和id_dsa.pub
Cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 完成
1.6、安装hadoop
下载解压即可
1.7、配置
先了解概念:
HDFS NameNode 管理节点 DataNode 数据节点 SecondaryNameNode数据源信息备份整理节点
MapReduce JobTracker 任务管理节点 TaskTracker 任务运行节点
配置文件
core-site.xml common属性配置
hdfs-site.xml HDFS属性配置
mapred-site.xml MapReduce属性配置
hadoop-env.sh hadoop环境变量配置
修改hadoop-env.conf-à加 export JAVA_HONME
其他的修改下载ppt看吧,不记了。
接下来启动hadoop,还是看ppt吧,ppt上挺全的;
在win上边就是玩玩,实际环境还是linux。
2、linux上装
ubuntu开发即可,之前用过,挺好的;
1、安装jdk,jdk需要下bin结尾的那个
2、配置JAVA_HOME及PATH环境变量,具体请参考ppt,加到.bashrc 然后运行 . .hashrc
步骤和win上差不多。还没装ubuntu系统,目前就用win的吧。
3、HadoopUI
50070端口-àhdfs 50030--àjobTracker
HDFS通信端口à9000 MapReduce通信端口à9001
管理界面
http://localhost:50070 hdfs
http://localhost:50030 mapreduce
通过UI可操作如文件系统、日志
4、word counter
1、生成两个文件 如input/file1 input/file2
2、在HDFS上建个目录,如hadoop fs –mkdir /tmp/input
3、把file1、分file放入HDFS hadoop fs –put input/* /tmp/input
4、查看 hadoop fs –ls /tmp/input
5、执行wordcounter
hadoop jar hadoop-example-1.0.0.jar wordcounter /tmp/input /tmp/output
6、运行完查看结果
hadoop fs –cat /tmp/output/part –r -00000