上一篇
2025年8月最新动态:随着AI与大数据技术的深度融合,Hadoop生态系统的应用场景进一步扩展,Apache基金会宣布Hadoop 4.0正式进入测试阶段,优化了资源调度与存储效率,但稳定版仍推荐使用3.x系列,对于初学者和本地开发环境,伪分布式模式依然是快速上手的最佳选择。
# 检查Java版本 java -version
# 安装SSH服务(Ubuntu示例) sudo apt install openssh-server ssh-keygen -t rsa # 生成密钥,一路回车 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys # 测试本地SSH登录 ssh localhost
从Apache官网获取稳定版(以Hadoop 3.3.6为例):
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.6/hadoop-3.3.6.tar.gz tar -xzvf hadoop-3.3.6.tar.gz -C /opt # 解压到/opt目录 sudo chown -R $USER:$USER /opt/hadoop-3.3.6 # 权限处理
编辑~/.bashrc
文件,追加以下内容:
export HADOOP_HOME=/opt/hadoop-3.3.6 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际路径修改
执行source ~/.bashrc
生效。
进入$HADOOP_HOME/etc/hadoop/
目录,修改以下文件:
hadoop-env.sh
指定Java路径:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
core-site.xml
配置HDFS地址和临时目录:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/tmp/hadoop-tmp</value> # 需手动创建该目录 </property> </configuration>
hdfs-site.xml
设置副本数(伪分布式设为1):
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
mapred-site.xml
指定YARN为计算框架:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
yarn-site.xml
启用MapReduce的Shuffle服务:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
仅第一次运行需要:
hdfs namenode -format
start-dfs.sh # 启动HDFS start-yarn.sh # 启动YARN
jps # 应显示:NameNode、DataNode、ResourceManager、NodeManager等
http://localhost:9870
http://localhost:8088
上传文件到HDFS并运行示例程序:
hdfs dfs -mkdir /input hdfs dfs -put $HADOOP_HOME/LICENSE.txt /input hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output hdfs dfs -cat /output/*
/tmp/hadoop-tmp
目录存在且用户有读写权限。 ~/.ssh/authorized_keys
权限是否为600。 :完成以上步骤后,你的伪分布式Hadoop环境已就绪!这种模式虽不能用于生产,但足够学习MapReduce编程和HDFS操作,如果想进一步深入,可以尝试添加多个节点扩展为完全分布式集群。
(注:本文基于2025年8月主流技术栈整理,具体路径请根据实际环境调整。)
本文由 犹康震 于2025-08-03发表在【云服务器提供商】,文中图片由(犹康震)上传,本平台仅提供信息存储服务;作者观点、意见不代表本站立场,如有侵权,请联系我们删除;若有图片侵权,请您准备原始证明材料和公证书后联系我方删除!
本文链接:https://vps.7tqx.com/wenda/523627.html
发表评论