在ipython中引入pyspark

除了通过pyspark命令来启动pyspark外,可否在普通的python进程中调用spark呢,这样便能方便配合IDE使用了。findspark包可以实现,过程如下:

1、首先设置SPARK_HOME

如果你不清楚SPARK_HOME位置,可以在pyspark的shell里获取:
启动pyspark

import os
os.environ.get('SPARK_HOME', None)

此时会显示路径,如'/opt/cloudera/parcels/CDH/lib/spark'

在 .bashrc 里添加

export SPARK_HOME='/opt/cloudera/parcels/CDH/lib/spark’
然后重新登入终端,以使更改生效。

2、安装findspark包

pip install findspark

一切就绪。

3、启动ipython

import findspark
findspark.init()

然后你就可以自由调用pyspark的API了,如:

from pyspark.sql import SparkSession

发表回复

您的电子邮箱地址不会被公开。