• 欢迎关注微信公众号:九万里大数据
  • 请使用Ctrl+D收藏本站到书签栏
  • 手机也可访问本站 jwldata.com

Spark指定JDK版本

Spark指定JDK版本
如果Spark执行报错Unsupported major.minor version 52.0,一般是因为YARN所在的机器配置的JDK是1.7的,而高版本的Spark(从2.2.0起)需要运行在Java 8以上。Exception in thread "main" java.lang.UnsupportedClassVersionError: org/a……继续阅读 »

九万里大数据 10个月前 (07-19) 374浏览 0评论0个赞

Hive视图的导出与导入

Hive视图的导出与导入
低版本的Hive不支持SHOW VIEWS命令,如果只想迁移Hive视图,需要先从Hive Metastore库里取出视图名,然后通过hive beeline来获取Hive视图的建表语句。关于SHOW VIEWS命令的讨论:https://stackoverflow.com/questions/22295961/hiveql-query-to-list-o……继续阅读 »

九万里大数据 11个月前 (06-30) 267浏览 0评论0个赞

CDH上再安装其他版本的Spark客户端

CDH上再安装其他版本的Spark客户端
假设CDH上已经安装了Spark1.6.0和Spark2.4.0,用spark-shell和spark2-shell可以分别调用两个版本的Spark。现在需要安装第三个版本的Spark客户端,这里讲述这种场景下再安装一个1.6.3版本的Spark客户端。普通的Spark客户端安装可以参考往期文章:https://www.jwldata.com/archi……继续阅读 »

九万里大数据 1年前 (2021-05-26) 379浏览 0评论0个赞

HDFS SecondaryNameNode的原理和作用

HDFS SecondaryNameNode的原理和作用
NameNode与fsimage、edits文件NameNode(简称NN)负责管理和保存HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。当NameNode在运行时,元数据都是保存在内存中,以保证响应时间。元数据同时也会持久化到磁盘,dfs.namenode.name.dir参数指定了元数据的磁盘保存路径。N……继续阅读 »

九万里大数据 1年前 (2021-05-21) 908浏览 0评论5个赞

搞懂HDFS体系架构这一篇就够了

搞懂HDFS体系架构这一篇就够了
Hadoop Distributed File System (HDFS)是一种分布式文件系统,具有高容错性,可运行在廉价的硬件上,具有高吞吐量,特别适合存放大规模数据集。HDFS实际架构非常复杂,今天通过一篇文章来浓缩最关键的几个点,结合图和源码等理解HDFS体系架构。系统设计目标硬件故障具有硬件故障检测能力,可自动快速恢复。流式数据访问高数据……继续阅读 »

九万里大数据 1年前 (2021-05-10) 595浏览 0评论0个赞

双网卡hadoop集群以外的客户端访问HDFS和提交Spark任务

双网卡hadoop集群以外的客户端访问HDFS和提交Spark任务
场景:hadoop集群双网卡,客户端在集群外,客户端只能访问外网IP。默认客户端连接hadoop是通过IP地址的,即使在客户端配置的/etc/hosts里为外网IP和域名的映射关系,也会连内网IP,导致无法访问datanode的1004端口,无法实现文件的上传和下载。为了在hadoop集群内能使用内网网卡,hadoop集群外能使用外网网卡,充分利用网络带宽,……继续阅读 »

九万里大数据 1年前 (2021-05-03) 767浏览 0评论2个赞

Hive客户端安装配置(hive-1.1.0-cdh5.16.2)

Hive客户端安装配置(hive-1.1.0-cdh5.16.2)
虽然通过CDH控制台可以很方便地安装hive客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装hive客户端的方式显然不妥当。在这种情形下,用户自己安装配置hive客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/hosts中。……继续阅读 »

九万里大数据 1年前 (2021-04-30) 991浏览 0评论4个赞

Spark客户端安装配置

Spark客户端安装配置
虽然通过CDH控制台可以很方便地安装spark客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装spark客户端的方式显然不妥当。在这种情形下,用户自己安装配置spark客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/host……继续阅读 »

九万里大数据 1年前 (2021-04-29) 678浏览 0评论4个赞