站点图标 Linux-技术共享

Mac苹果电脑系统安装Hadoop3.x+Scala+Spark

最折腾的步骤是在hadoop的安装,我尝试安装了4次,前两次直接用brew install hadoop+其他博客上的安装教程,后面两次直接按照hadoop官网说的安,第三次是因为我安装在/usr/local下面遇到了用户权限的问题才又重新安装了一遍。所以说按照hadoop官网安装是最保险的。下面的介绍都是基于hadoop官网的教程,需要配合官网教程食用~

  1. 设备:macOS+java版本–jdk1.8.0_171.jdk
  2. 参考链接:
    hadoop 官方安装教程
  3. 简要的官方安装过程介绍-官网上那些详细的介绍在这里就不赘述了

hadoop3.x 安装

/usr/libexec/java_home

bin/hadoop

官网提供了3种安装模式我选的是第二种伪分布式。

ssh localhost

$ bin/hdfs namenode -format

这里要千万要注意的是只能格式化一次,要是重复格式化的话会导致namenode的cluster id和datanode的cluster id不一致然后你就得去改id,但我改了没有效果所以就删档重来。

sbin/start-dfs.sh

到了这里你就能リンクスタート了,后面没有坑,照着官网一步一步走,在Execution的6. Run some of the examples provided:

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'

记得把2.9.2换成你自己的hadoop版本就可以运行的。

踩坑填坑

  1. 删除你解压的那个软件包
  2. 删除/tmp/hadoop-***这个文件夹

配置环境变量(hadoop3+scala+spark)

打开.bash_profile文件,添加

[plain] view plaincopy
  1. export HADOOP_HOME=/Users/ironegg/hadoop-3.2.0  
  2. export SCALA_HOME=/usr/local/Cellar/scala/scala-2.12.8  
  3. export SPARK_HOME=/Users/ironegg/spark  
  4. export PYSPARK_PYTHON=python3  
  5. export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin  

配置环境变量的时候不要抄!!记得对照你自己的文件路径!!

叮~成功的~

scala安装

直接brew install scala

spark安装

官网 http://spark.apache.org/downloads.html
我安装的是spark-2.4.0-bin-hadoop2.7.tar,解压后把他放在跟hadoop同一文件夹中。
环境变量在上面一起配置好了,mac自带了python2所以要添加个pyspark_python的路径(跟上面的环境变量配置一起了),这样pyspark才能基于python3调用。
终端输入spark-shell调出spark

那个WARN NativeCodeLoader:62网上有解决办法可以自行查找虽然我还没去看。

退出移动版