ORC的优点The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Usin……继续阅读 » 九万里大数据 2年前 (2021-07-30) 2264浏览 0评论2个赞
在执行动态分区INSERT OVERWRITE时,如果源表是有很多分区的大表,任务可能会报错org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded。YARN报错2021-07-07 11……继续阅读 » 九万里大数据 2年前 (2021-07-27) 1524浏览 0评论3个赞
创建LZO Compressed Text Tables使用Hive创建LZO压缩的Text格式的表CREATE TABLE IF NOT EXISTS bank.account_lzo ( `id_card` int, `tran_time` string, `name` string, `cash` int )par……继续阅读 » 九万里大数据 2年前 (2021-07-26) 1506浏览 0评论1个赞
下载presto安装包presto官网:https://prestodb.iopresto-server下载链接:https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.255/presto-server-0.255.tar.gzpresto-cli下载链接:https:……继续阅读 » 九万里大数据 2年前 (2021-07-20) 972浏览 0评论1个赞
低版本的Hive不支持SHOW VIEWS命令,如果只想迁移Hive视图,需要先从Hive Metastore库里取出视图名,然后通过hive beeline来获取Hive视图的建表语句。关于SHOW VIEWS命令的讨论:https://stackoverflow.com/questions/22295961/hiveql-query-to-list-o……继续阅读 » 九万里大数据 2年前 (2021-06-30) 819浏览 0评论0个赞
虽然通过CDH控制台可以很方便地安装hive客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装hive客户端的方式显然不妥当。在这种情形下,用户自己安装配置hive客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/hosts中。……继续阅读 » 九万里大数据 3年前 (2021-04-30) 2123浏览 0评论5个赞
zeppelin集成hive,是通过继承通用jdbc解释器来实现。创建Interpreter选择Interpreter选择Create,Interpreter group选择jdbc,Interpreter Name自己随便起个名。配置Properties注意,将jdbc:hive2://X.X.X.X:10000/default的jdbc……继续阅读 » 九万里大数据 3年前 (2021-03-19) 1237浏览 0评论0个赞
Hive CLI是一种重客户端,在新版本中已移除,推荐使用Hive beeline客户端,可以更好地实现安全控制,下面讲讲beeline的使用。在hive1.1.0中使用Hive CLI会提示WARNING: Hive CLI is deprecated and migration to Beeline is recommended.无kerbe……继续阅读 » 九万里大数据 3年前 (2021-03-02) 2547浏览 0评论3个赞
执行引擎在Hive3中,Tez完全取代了MapReduce,这张图显示了Hive3的查询流程。1.Hive编译查询语句2.Tez执行查询3.YARN分配资源4.Hive更新HDFS上的数据5.Hive返回查询结果给JDBC连接LLAP负载管理LLAP(Live Long And Process)功能是在Hive2.0中引入的。LLAP的核……继续阅读 » 九万里大数据 3年前 (2021-02-23) 1248浏览 0评论9个赞
Hive ACID v2Hive3的ACID v2相比Hive2的ACID v1,对很多事务的特性进行了优化升级,使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据,包括insert, update, delete, merge支持数据库四大特性, Atomicity, Consistency, Isolation, Durability……继续阅读 » 九万里大数据 3年前 (2021-02-23) 1379浏览 0评论4个赞