Hadoopcom.hadoop.compression.lzo.LzoCodec not found[root@jwldata01 hadoop]# hadoop fs -text /data/bank.db/account/ds=2020-09-21/000000_0.lzo21/07/05 16:23:38 WARN util.NativeCo……继续阅读 » 九万里大数据 2年前 (2021-07-23) 2081浏览 0评论2个赞
在spark-defaults.conf添加spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby后续derby.log文件会生成在/tmp/derby目录下。欢迎关注我的微信公众号“九万里大数据”,原创技术文章第一时间推送。欢迎访问原创技术博客网站 jwldata.com,排版更……继续阅读 » 九万里大数据 2年前 (2021-07-19) 547浏览 0评论0个赞
Address already in use: Service 'SparkUI' failed after 16 retries (starting from 4040)! Consider explicitly setting the appropriate port for the service 'SparkUI' (for example spar……继续阅读 » 九万里大数据 2年前 (2021-07-19) 564浏览 0评论0个赞
报错是因为服务端YARN集群,需要和Spark driver通信时,因为服务端并没有配置客户端的域名解析,所以报java.net.UnknownHostException。客户端报错2021-06-01 14:20:21 WARN YarnScheduler:66 - Initial job has not accepted any resources……继续阅读 » 九万里大数据 2年前 (2021-07-19) 2014浏览 0评论2个赞
如果Spark执行报错Unsupported major.minor version 52.0,一般是因为YARN所在的机器配置的JDK是1.7的,而高版本的Spark(从2.2.0起)需要运行在Java 8以上。Exception in thread "main" java.lang.UnsupportedClassVersionError: org/a……继续阅读 » 九万里大数据 2年前 (2021-07-19) 948浏览 0评论0个赞
cd /opt/spark-1.6.3-bin-hadoop2.6/confvi spark-defaults.confspark.eventLog.enabled=truespark.eventLog.dir=hdfs://nameservice1/user/spark/applicationHistoryspark.yarn.histo……继续阅读 » 九万里大数据 2年前 (2021-07-19) 343浏览 0评论0个赞
假设CDH上已经安装了Spark1.6.0和Spark2.4.0,用spark-shell和spark2-shell可以分别调用两个版本的Spark。现在需要安装第三个版本的Spark客户端,这里讲述这种场景下再安装一个1.6.3版本的Spark客户端。普通的Spark客户端安装可以参考往期文章:https://www.jwldata.com/archi……继续阅读 » 九万里大数据 2年前 (2021-05-26) 777浏览 0评论0个赞
场景:hadoop集群双网卡,客户端在集群外,客户端只能访问外网IP。默认客户端连接hadoop是通过IP地址的,即使在客户端配置的/etc/hosts里为外网IP和域名的映射关系,也会连内网IP,导致无法访问datanode的1004端口,无法实现文件的上传和下载。为了在hadoop集群内能使用内网网卡,hadoop集群外能使用外网网卡,充分利用网络带宽,……继续阅读 » 九万里大数据 2年前 (2021-05-03) 1174浏览 0评论2个赞
虽然通过CDH控制台可以很方便地安装spark客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装spark客户端的方式显然不妥当。在这种情形下,用户自己安装配置spark客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/host……继续阅读 » 九万里大数据 2年前 (2021-04-29) 1453浏览 0评论4个赞
Zeppelin自带Spark的Interpreter,只需要简单的配置就可以使用Spark了。首先确认Zeppelin的机器上已安装有Hadoop客户端和Spark客户端,能通过Hadoop客户端连接HDFS,通过Spark客户端提交任务给YARN。配置环境变量cd zeppelin-0.9.0-bin-allvi conf/zeppelin-e……继续阅读 » 九万里大数据 2年前 (2021-04-09) 1590浏览 0评论1个赞