除了通过pyspark命令来启动pyspark外,可否在普通的python进程中调用spark呢,这样便能方便配合IDE使用了。findspark包可以实现,过程如下:
1、首先设置SPARK_HOME
如果你不清楚SPARK_HOME位置,可以在pyspark的shell里获取:
启动pyspark
import os os.environ.get('SPARK_HOME', None)
此时会显示路径,如'/opt/cloudera/parcels/CDH/lib/spark'
在 .bashrc 里添加
export SPARK_HOME='/opt/cloudera/parcels/CDH/lib/spark’
然后重新登入终端,以使更改生效。
2、安装findspark包
pip install findspark
一切就绪。
3、启动ipython
import findspark findspark.init()
然后你就可以自由调用pyspark的API了,如:
from pyspark.sql import SparkSession