从零开始在Linux上安装hadoop和spark(pyspark)。

2017年10月20日 原创
关键词: python 人工智能 数据挖掘
摘要 本文讲述如何在新安装好的Linux上安装hadoop和spark(pyspark)。

一、配置Linux。

安装好Linux后,网络配置选择桥接模式。为了能连上网,需要设置ip。

ifconfig ens33 192.168.1.234

为了重启后IP仍然生效,编辑 /etc/sysconfig/network-scripts/ifcfg-ens33

把BOOTPROTO=dhcp改为BOOTPROTO=static

再添加一行IPADDR=192.168.1.234

现在Linux应该是可以上网了

如果能访问IP但是无法解析域名则需要设置DNS

编辑/etc/resolve.conf

设置内容为

nameserver 8.8.8.8

nameserver 114.114.114.114

即可

二、安装JDK和Python。

安装JDK

在Java官网下载JDK的rpm包到服务器上。JDK版本建议用8,JDK9会在启动yarn时报错。

下载完成后在服务器上执行命令

yum localinstall jdk-8u31-linux-x64.rpm

最后再配置环境变量

编辑/etc/profile.d/java.sh

export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin

执行source /etc/profile.d/java.sh

此时JDK就已经安装完毕了。

执行java -version可以查看安装的JDK版本。

安装Python

在Linux只能通过编译安装的方式安装Python。

首先在Python官网下载源码,解压到服务器上。

分别执行

./configure

make

make install

执行完成之后,Python就安装好了。

 

三、安装并启动Hadoop。

在官网上下载Hadoop的二进制包,解压到服务器上。

编辑/etc/profile.d/hadoop.sh,配置相关环境变量

export PATH=$PATH:/home/lonphy/software/hadoop/default/bin:/home/lonphy/software/hadoop/default/sbin
export HADOOP_HOME=/home/lonphy/software/hadoop/default

切换到hadoop/etc目录

编辑core-site.xml新增如下配置
   

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.1.234:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/lonphy/software/hadoop/default/tmp</value>
    </property>


编辑hdfs-site.xml,新增如下配置

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

编辑yarn-site.xml,新增如下配置

        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>192.168.1.234</value>
        </property>

执行hdfs namenode -format格式化hadoop.tmp.dir目录。

为了免密码登录,执行以下命令

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 0600 ~/.ssh/authorized_keys

至此,hadoop就配置好了,接下来我们启动hadoop

start-dfs.sh

start-yarn.sh

执行jps可以查看java进程,正常启动之后应该有如下几个进程

访问http://192.168.1.234:8088可以看hadoop的管理后台。

至此hadoop的安装配置和启动就已经完成了。

四、安装Spark以及pyspark。

在官网上下载Spark的二进制包,解压到服务器上。

编辑/etc/profile.d/spark.sh配置相关环境变量
 

export SPARK_HOME=/home/lonphy/software/spark/default
export PATH=$PATH:$SPARK_HOME/{bin,sbin}

执行pip install pyspark安装pyspark

执行pyspark就可以进入spark的交互式界面了

至此spark的安装也完成了。