执行编辑hdfs-site.xml文件的命令:vi/opt/hadoop/hadoop/etc/hadoop/hdfs-site.xml1需要在之间加入的代码:dfs.replication11234编辑完成后,退出保存即可!配置yarn-site.xml文件(只在master做)Yarn的站点配置文件是yarn-site.xml,位于/opt/hadoop/hadoop/etc/hadoop子目录下,依然用vi编辑该文件,将以下代码放在文件的之间。

观察job是否可以顺利完成。

验证Hadoop集群是否启动成功读者您可以在终端执行jps命令查看Hadoop是否启动成功。

而mapreducejob也能顺利完成,没有因为resourcemanager的意外故障而影响运行。

执行命令:vi/opt/hadoop/hadoop/etc/hadoop/mapred-site.xml需要在之间加入的代码:mapreduce.framework.nameyarn编辑完毕,保存退出即可!配置master的slaves文件(只在master做)slaves文件给出了Hadoop集群的slave节点列表,该文件十分的重要,因为启动Hadoop的时候,系统总是根据当前slaves文件中的slave节点名称列表启动集群,不在列表中的slave节点便不会被视为计算节点。

验证Hadoop集群是否启动成功读者您可以在终端执行jps命令查看Hadoop是否启动成功。

设置网络因为Vmware的NAT设置中关闭了DHCP自动分配IP功能,所以Linux还没有IP,需要我们设置网络各个参数。

由于解压后的文件名有些长,我们可以为其更换文件名为hadoop,改名可以有如下方式:执行命令mvhadoop-2.6.5/./hadoop即可。

安装过程中,会穿插简单介绍涉及到的知识。

Zookeeper是分布式管理协作框架,Zookeeper集群用来保证Hadoop集群的高可用,(高可用的含义是:集群中就算有一部分服务器宕机,也能保证正常地对外提供服务。

.常用的HadoopFSShell命令有哪些及其作用1.调用Hadoop的文件系统Shell(FileSystemShell)的命令格式:语法:hadoopfs:前提是位置位于hadoop/bin下,其中fs是参数,表示FSShell,是fs的子命令2.使用FSShell命令行管理文件:mkdir-创建目录语法:hadoopfs-mkdir例子:hadoopfs-mkdir/user:在HDFS中创建”/user”目录hadoopfs-mkdir/user/hadoop:在HDFS中创建”/user/hadoop”目录hadoopfs-mkdir/user/hadoop/dir1/user/hadoop/dir2:在HDFS中同时创建”/user/hadoop/dir1″和”/user/hadoop/dir2″,目录ls-查看列表文件语法:hadoopfs-ls如果是文件,则按照如下格式返回文件信息:文件名<副本数>文件大小修改日期修改时间权限用户ID组ID如果是目录,则返回它直接子文件的一个列表cat-查看文件语法:hadoopfs-catURI:输出路径指定文件的内容例子:hadoopfs-cat/input2/file1.txt/input2/file2.txt:在HDFS中查看input2目录下的file1.txt和file2.txt的文件内容put-从本地文件系统中复制一个或多个文件到HDFS(外部命令)语法:hadoopfs-put其中localsrc只能是本地文件,dst只能是HDFS文件,且不受fs.defaultFS属性影响。

HDFS原理是把大块数据切碎,每个碎块复制三份,分开放在三个廉价机上,一直保持有三块可用的数据互为备份。

而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。

本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。

在这里插入图片描述(https://img-blog.csdnimg.cn/60923330643646ef85f619959af3d594.pngpic_center)安装jdk(以master为例,主节点和从节点都要配置)每一个结点都要安装(1)上传JDK安装包到虚拟机/opt目录!在这里插入图片描述(https://img-blog.csdnimg.cn/a6d65775151943729a7d1e58f9d46ebc.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAcXFfNDU5NDc0OTg=,size_15,color_FFFFFF,t_70,g_se,x_16pic_center)!在这里插入图片描述(https://img-blog.csdnimg.cn/5fe21a9bdf5043d791bd66d53504fa84.pngpic_center)(2)进入/opt目录,执行命令`rpm-ivhjdk-8u151-linux-x64.rpm`安装JDK!在这里插入图片描述(https://img-blog.csdnimg.cn/489f8cba5a0f416892c7ab3cccffda9f.pngpic_center)(3)在/etc/profile添加exportJAVA_HOME=/usr/java/jdk1.8.0_151exportPATH=$PATH:$JAVA_HOME/bin!在这里插入图片描述(https://img-blog.csdnimg.cn/d60e4385ef2f4f77942d3fc5b6a903ab.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAcXFfNDU5NDc0OTg=,size_15,color_FFFFFF,t_70,g_se,x_16pic_center)执行`source/etc/profile`使配置生效(4)验证JDK是否配置成功,执行命令java-version!在这里插入图片描述(https://img-blog.csdnimg.cn/4ffddee235b24baab99a5bfb053f6fbe.pngpic_center)Hadoop集群配置()1.后面的配置文件都是复制粘贴就好2.通过xmanager的Xftp上传hadoop-2.6.5.tar.gz文件到/opt目录3.解压缩hadoop-2.6.5.tar.gz文件tar-zxfhadoop-2.6.5.tar.gz-C/usr/local解压后即可,看到/usr/local/hadoop-2.6.5文件夹3.配置Hadoop进入目录:cd/usr/local/hadoop-2.6.5/etc/hadoop/依次修改下面的文件:4.1`core-site.xml`fs.defaultFShdfs://master:8020hadoop.tmp.dir/var/log/hadoop/tmp4.2`hadoop-env.sh`exportJAVA_HOME=/usr/java/jdk1.8.0_1514.3`hdfs-site.xml`dfs.namenode.name.dirfile:///data/hadoop/hdfs/namedfs.datanode.data.dirfile:///data/hadoop/hdfs/datadfs.namenode.secondary.http-addressmaster:50090dfs.replication34.4复制`cpmapred-site.xml.templatemapred-site.xml`mapred-site.xmlmapreduce.framework.nameyarnmapreduce.jobhistory.addressmaster:10020mapreduce.jobhistory.webapp.addressmaster:198884.5`yarn-site.xml`yarn.resourcemanager.hostnamemasteryarn.resourcemanager.address$:8033yarn.nodemanager.local-dirs/data/hadoop/yarn/localyarn.log-aggregation-enabletrueyarn.nodemanager.remote-app-log-dir/data/tmp/logsyarn.log.server.urlhttp://master:19888/jobhistory/logs/URLforjobhistoryserveryarn.nodemanager.vmem-check-enabledfalseyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandleryarn.nodemanager.resource.memory-mb2048yarn.scheduler.minimum-allocation-mb512yarn.scheduler.maximum-allocation-mb4096mapreduce.map.memory.mb2048mapreduce.reduce.memory.mb2048yarn.nodemanager.resource.cpu-vcores14.6y`arn-env.sh`exportJAVA_HOME=/usr/java/jdk1.8.0_1514.7slaves删除localhost,(有几个添加几个)添加:slave1slave2slave3拷贝hadoop安装文件到集群slave节点scp-r/usr/local/hadoop-2.6.5slave1:/usr/localscp-r/usr/local/hadoop-2.6.5slave2:/usr/localscp-r/usr/local/hadoop-2.6.5slave3:/usr/local5.在/etc/profile添加Hadoop路径exportHADOOP_HOME=/usr/local/hadoop-2.6.5exportPATH=$HADOOP_HOME/bin:$PATHsource/etc/profile使修改生效6.格式化NameNode进入目录cd/usr/local/hadoop-2.6.5/bin执行格式化./hdfsnamenode-format7.启动集群进入目录cd/usr/local/hadoop-2.6.5/sbin执行启动:./start-dfs.sh./start-yarn.sh./mr-jobhistory-daemon.shstarthistoryserver使用jps,查看进程root@mastersbinjps1765NameNode1929SecondaryNameNode2378JobHistoryServer2412Jps2077ResourceManagerroot@slave1~jps1844Jps1612DataNode1711NodeManager在Windows下C:\\Windows\\System32\\drivers\\etc\\hosts添加IP映射192.168.128.130mastermaster.centos.com192.168.128.131slave1slave1.centos.com192.168.128.132slave2slave2.centos.com192.168.128.133slave3slave3.centos.com8.浏览器查看:http://master:50070yNameNode2378JobHistoryServer2412Jps2077ResourceManagerroot@slave1~jps1844Jps1612DataNode1711NodeManager在Windows下C:\\Windows\\System32\\drivers\\etc\\hosts添加IP映射192.168.128.130mastermaster.centos.com192.168.128.131slave1slave1.centos.com192.168.128.132slave2slave2.centos.com192.168.128.133slave3slave3.centos.com8.浏览器查看:http://master:50070http://master:8088总结:这就是一篇笔记,根据以前学校老师给出的文件自己搭建的集群。

HDFSFederation中的多个NameNode共用DataNode。

修改server127.127.1.0fudge127.127.1.0stratum103、修改配置文件ntpdhadoop@bigdata-senior03~$sudovim/etc/sysconfig/ntpd添加一行配置:SYNC_CLOCK=yes

4、启动ntp服务hadoop@bigdata-senior03~$sudochkconfigntpdon这样每次机器启动时,ntp服务都会自动启动。

这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。

下载完成,现在把文件拷到linux桌面上,打开终端

输入命令:cp/root/Desktop/jdk-6u25-linux-i586.bin/usr/local输入命令:cd/usr/local./jdk-6u25-linux-i586.bin安装文件输入命令:gedit/etc/profile在文件最后加入如下代码:setJDKenvironmentexportJAVA_HOME=/usr/local/jdk1.6.0_22exportPATH=$PATH:$JAVA_HOME/binexportCLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexportJRE_HOME=$JAVA_HOME/jre执行如下命令使环境变量生效:$source/etc/profile检查环境变量设置是否正确:$java-version输出如下:javaversion1.6.0_25″Java(TM)SERuntimeEnvironment(build1.6.0_25-b06)JavaHotSpot(TM)ClientVM(build20.0-b11,mixedmode,sharing)表示JDK已经成功安装**安装Hadoop**下载hadoop**下载完之后,命令行输入:tar-xzvftar-xzvfhadoop-0.20.203.0rc1.tar.gz进行解压****重命名为hadoop****cdhadoop****cdconf/core-site**修改conf/core-site.xml:fs.default.namehdfs://localhost:9000geditconf/hdfs-site.xml修改conf/hdfs-site.xml:dfs.replication1geditconf/mapred-site.xml修改conf/mapred-site.xml:mapred.job.trackerlocalhost:9001hadoop运行需要JDK支持,因此需要配置Java的安装路径geditconf/hadoop-env.sh加入下面一行(由JDK具体安装的路径决定):exportJAVA_HOME=/usr/local/jdk1.6.0_25创建一个新的分布式文件系统:bin/hadoopnamenode-formatbin/start-all.sh启动hadoop结果没启动成功,看了下日志,发现出现了connecttohostlocalhostport22,原来是ssh没有装apt-getinstallopenssh-server安装ssh**建立SSHKEY:**$ssh-keygen-trsa-P(注意不要多加空格或缺少空格)中途需要安装者选择保存密钥的文件,按回车使用默认的文件就可以了:Enterfileinwhichtosavethekey(/root/.ssh/id_rsa):(按回车)**启用SSHKEY:**$cat/root/.ssh/id_rsa.pub>>/root/.ssh/authorized_keys/etc/init.d/sshreloadreloadsshsshlocalhost再次运行hadoopbin/start-all.sh发现如下错误Unrecognizedoption:-jvm可以根据这个链接进行修改再次bin/start-all.sh如果启动不起来请先bin/hadoop-namenodeformat再bin/stop-all.sh,再bn/start-all.sh接着访问http://localhost:50030,http://localhost:50070,如果成功打开了,说明安装成功了接着安装eclipse输入命令apt-getinstalleclipse安装完成之后输入cp/usr/local/hadoop/contrib/eclipse-plugin/hadoop-eclipse-plugin-0.20.203.0.jar/usr/lib/eclipse/plugins找到/usr/lib/eclipse打开eclipsewindows->preferences

选择hadoop安装路径,选择好之后点击确定

配置后结果发现出错发现没配置好在终端中输入$gedit/etc/profile修改运行环境,在文件最尾添加如下内容:exportHADOOP_HOME=/usr/local/hadoop(此处即为hadoop的安装目录)exportPATH=$PATH:HADOOP_HOME/bin接下来又会报出另外一个错误,请参照这个,hadoop安装部署这里写目录标题安装流程1、上传软件包到管理节点,在管理节点解压并配置2、将修改完的解压包,远程拷贝到所有的从节点3、启动软件1、Hadoop安装部署1、1Hadoop安装部署1、软件包上传并解压a)tar-zxvfhadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz-C…/servers/2、第二步查看hadoop支持的压缩方式以及本地库a)a)./hadoopchecknative!在这里插入图片描述(https://img-blog.csdnimg.cn/20201006195217596.pngpic_center)b)安装opensslyum-yinstallopenssl-devel./hadoopchecknative!在这里插入图片描述(https://img-blog.csdnimg.cn/20201006195341101.pngpic_center)3、修改配置文件a)core-site.xmlb)hdfs-site.xmlc)Hadoop-env.sh(不用改)d)mapred-site.xmli.cpmapred-site.xml.templatemapred-site.xmlii.修改e)yarn-site.xmlf)slaves4、创建文件夹mkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatasmkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatasmkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatasmkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/editsmkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/namemkdir-p/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits5、安装包的分发scp-rhadoop-2.6.0-cdh5.14.0/node02:PWDscprhadoop2.6.0cdh5.14.0/node03:PWDscp-rhadoop-2.6.0-cdh5.14.0/node03:PWDscprhadoop2.6.0cdh5.14.0/node03:PWD6、配置hadoop环境变量a)创建文件/etc/profile.d/hadoop.sh并编辑exportHADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0exportPATH=PATH:PATH:PATH:HADOOP_HOME/binb)source/etc/profile7、启动集群a)格式化集群在第一个节点执行hadoopnamenode-format!在这里插入图片描述(https://img-blog.csdnimg.cn/20201006195642589.pngpic_center)b)启动i.每个组件独立启动1.启动namenodenode01节点./hadoop-daemon.shstartnamenode2.启动namenodenode01、02、03节点./hadoop-daemon.shstartdatanode3.启动resourcemanagernode01节点./yarn-daemon.shstartresourcemanager4.启动nodemanagernode01、02、03节点./yarn-daemon.shstartnodemanagerii.单独启动1.单独启动HDFS:./start-dfs.sh关闭./stop-dfs.sh2.单独启动Yarn:./start-yarn.sh关闭./stop-yarn.shiii.一键启动所有启动:./start-all.sh关闭:./stop-all.sh8、浏览器查看启动页面http://主节点ip:50070!在这里插入图片描述(https://img-blog.csdnimg.cn/2020100619584345.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80ODE0Mzk5Ng==,size_16,color_FFFFFF,t_70pic_center)http://主节点ip:8088!在这里插入图片描述(https://img-blog.csdnimg.cn/20201006195857594.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80ODE0Mzk5Ng==,size_16,color_FFFFFF,t_70pic_center),本文hadoop的版本为hadoop-2.2.0安装javajdk1、下载javajdk1.7版本,放在/home/software目录下,2解压:tar-zxvfjava-jdk*****.jar3、vim/etc/profile在文件最后添加exportJAVA_HOME=/home/software/jdk1.7exportPATH=$PATH:$JAVA_HOME/bin刷新配置source/etc/profile4、检测是否成功安装:java-version安装hadoop1、在linux根路径创建目录cloud:sudomkdircloud2、解压hadoop到cloud目录中:tar-zxvfhadoop-2.2.0.tar.gz-C/cloud/3、进入目录:/cloud/hadoop/etc/hadoop修改配置文件1、修改hadoop-env.sh,配置javajdk路径,大概在27行配置,如下:exportJAVA_HOME=/home/software/jdk1.72、修改core-site.xml,配置内容如下fs.defaultFShdfs://locahost:9000hadoop.tmp.dir/cloud/hadoop/tmp3、修改hdfs-site.xml,修改配置如下dfs.replication14、修改mapred-site.xml由于在配置文件目录下没有,需要修改名称:mvmapred-site.xml.templatemapred-site.xmlmapreduce.framework.nameyarn5、修改yarn-site.xml,修改内容如下yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamelocalhost6、讲hadoop添加到环境变量,然后更新一下环境变量:source/etc/profileexportJAVA_HOME=//home/software/jdk1.7exportHADOOP_HOME=/cloud/hadoopexportPATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin启动hadoop1、格式化hadoop,进入目录:/cloud/hadoop/etc/hadoo,执行下列之一命令即可hadoopnamenode-format(过时)hdfsnamenode-format2、启动hdfs和yarn先启动HDFSsbin/start-dfs.sh再启动YARNsbin/start-yarn.sh3、验证是否成功,使用命令:jps,输出如下即表示配置成功。

有防火墙会导致ping得通但telnet端口不通,从而导致DataNode启动了,但Livedatanodes为0的情况。

般都是放在/usr目录下。

Zookeeper的选举机制。

具体配置步骤如下:1)配置mapred-site.xmlxiaobuding@hadoop102hadoop$vimapred-site.xml在该文件里面增加如下配置。

如下图所示上传成功将hadoop-2.6.5.tar.gz解压到当前用户主目录下,方法:在用户主目录下输入命令tar-zxvf./software/hadoop-2.6.5.tar.gz,然后回车键执行回车开始执行后压缩文件开始解压压缩文件会被解压到用户主目录下,解压完成后会查看当前用户主目录下的文件,如下图所示可以看到文件hadoop-2.6.5,此文件即为解压后的文件夹。

区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。