• 欢迎关注微信公众号:九万里大数据
  • 请使用Ctrl+D收藏本站到书签栏
  • 手机也可访问本站 jwldata.com

Zeppelin集成Spark配置

大数据技术 九万里大数据 3年前 (2021-04-09) 1796次浏览 0个评论 扫描二维码
文章目录[隐藏]

Zeppelin自带Spark的Interpreter,只需要简单的配置就可以使用Spark了。

首先确认Zeppelin的机器上已安装有Hadoop客户端和Spark客户端,能通过Hadoop客户端连接HDFS,通过Spark客户端提交任务给YARN。

配置环境变量

cd zeppelin-0.9.0-bin-all
vi conf/zeppelin-env.sh

# 在zeppelin-env.sh文件中找到SPARK_HOME和HADOOP_CONF_DIR两项配置,修改成实际的路径
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark
export HADOOP_CONF_DIR=/etc/hadoop/conf

# 重启Zeppelin
./bin/zeppelin-daemon.sh restart

配置Interpreter

选择Interpreter
Zeppelin集成Spark配置

搜索spark
Zeppelin集成Spark配置

将spark.master配置成yarn-client,其他可以暂时保持不变。

验证测试

%spark
import org.apache.hadoop.fs.{FileSystem, Path}
val fs = FileSystem.get(sc.hadoopConfiguration)
val dirSize = fs.getContentSummary(new Path("hdfs:///user/root")).getLength

Zeppelin集成Spark配置


欢迎关注我的公众号“九万里大数据”,原创技术文章第一时间推送。
欢迎访问原创技术博客网站 jwldata.com,排版更清晰,阅读更爽快。


Zeppelin集成Spark配置
 


本站文章,如未注明,均为原创 | 原创文章版权归九万里大数据所有,未经许可不得转载。
本文链接:Zeppelin集成Spark配置
喜欢 (1)

您必须 登录 才能发表评论!