背景在Hadoop 1.x的时候,NameNode存在单点故障问题。如果NameNode进程或者所在的机器有故障,会导致整个集群不可用,直到NameNode进程重启或者所在的机器恢复。在hadoop 2.x之后,增加了NameNode的HA机制。即在一个HDFS集群中运行两个NameNode节点,一个是Active状态的,一个是Standby状态的。当Ac……继续阅读 » 九万里大数据 2年前 (2021-08-18) 1819浏览 0评论1个赞
ORC的优点The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Usin……继续阅读 » 九万里大数据 2年前 (2021-07-30) 2142浏览 0评论2个赞
在执行动态分区INSERT OVERWRITE时,如果源表是有很多分区的大表,任务可能会报错org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded。YARN报错2021-07-07 11……继续阅读 » 九万里大数据 2年前 (2021-07-27) 1437浏览 0评论3个赞
创建LZO Compressed Text Tables使用Hive创建LZO压缩的Text格式的表CREATE TABLE IF NOT EXISTS bank.account_lzo ( `id_card` int, `tran_time` string, `name` string, `cash` int )par……继续阅读 » 九万里大数据 2年前 (2021-07-26) 1426浏览 0评论1个赞
Hadoopcom.hadoop.compression.lzo.LzoCodec not found[root@jwldata01 hadoop]# hadoop fs -text /data/bank.db/account/ds=2020-09-21/000000_0.lzo21/07/05 16:23:38 WARN util.NativeCo……继续阅读 » 九万里大数据 2年前 (2021-07-23) 2277浏览 0评论2个赞
yanagishima编译好的包下载地址我把编译好的二进制包放到网盘上了,不想自己编译的见文末自取。放了两个版本的包,一个是原始包,对代码无任何改动。另一个是修改包,改了引用css和字体为本地,方便内网环境部署(推荐)。安装JDK11首先安装JDK11,可以参考安装配置OracleJDK如果不想显式地在/etc/profile配置JAVA_HOM……继续阅读 » 九万里大数据 2年前 (2021-07-22) 1917浏览 0评论1个赞
下载presto安装包presto官网:https://prestodb.iopresto-server下载链接:https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.255/presto-server-0.255.tar.gzpresto-cli下载链接:https:……继续阅读 » 九万里大数据 2年前 (2021-07-20) 913浏览 0评论1个赞
在spark-defaults.conf添加spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby后续derby.log文件会生成在/tmp/derby目录下。欢迎关注我的微信公众号“九万里大数据”,原创技术文章第一时间推送。欢迎访问原创技术博客网站 jwldata.com,排版更……继续阅读 » 九万里大数据 2年前 (2021-07-19) 617浏览 0评论0个赞
Address already in use: Service 'SparkUI' failed after 16 retries (starting from 4040)! Consider explicitly setting the appropriate port for the service 'SparkUI' (for example spar……继续阅读 » 九万里大数据 2年前 (2021-07-19) 619浏览 0评论0个赞
报错是因为服务端YARN集群,需要和Spark driver通信时,因为服务端并没有配置客户端的域名解析,所以报java.net.UnknownHostException。客户端报错2021-06-01 14:20:21 WARN YarnScheduler:66 - Initial job has not accepted any resources……继续阅读 » 九万里大数据 2年前 (2021-07-19) 2248浏览 0评论2个赞