Zeppelin自带Spark的Interpreter,只需要简单的配置就可以使用Spark了。
首先确认Zeppelin的机器上已安装有Hadoop客户端和Spark客户端,能通过Hadoop客户端连接HDFS,通过Spark客户端提交任务给YARN。
配置环境变量
cd zeppelin-0.9.0-bin-all
vi conf/zeppelin-env.sh
# 在zeppelin-env.sh文件中找到SPARK_HOME和HADOOP_CONF_DIR两项配置,修改成实际的路径
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf
# 重启Zeppelin
./bin/zeppelin-daemon.sh restart
配置Interpreter
选择Interpreter
搜索spark
将spark.master配置成yarn-client,其他可以暂时保持不变。
验证测试
%spark
import org.apache.hadoop.fs.{FileSystem, Path}
val fs = FileSystem.get(sc.hadoopConfiguration)
val dirSize = fs.getContentSummary(new Path("hdfs:///user/root")).getLength
欢迎关注我的公众号“九万里大数据”,原创技术文章第一时间推送。
欢迎访问原创技术博客网站 jwldata.com,排版更清晰,阅读更爽快。