场景:hadoop集群双网卡,客户端在集群外,客户端只能访问外网IP。默认客户端连接hadoop是通过IP地址的,即使在客户端配置的/etc/hosts里为外网IP和域名的映射关系,也会连内网IP,导致无法访问datanode的1004端口,无法实现文件的上传和下载。为了在hadoop集群内能使用内网网卡,hadoop集群外能使用外网网卡,充分利用网络带宽,……继续阅读 » 九万里大数据 3年前 (2021-05-03) 1374浏览 0评论2个赞
虽然通过CDH控制台可以很方便地安装hive客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装hive客户端的方式显然不妥当。在这种情形下,用户自己安装配置hive客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/hosts中。……继续阅读 » 九万里大数据 3年前 (2021-04-30) 2123浏览 0评论5个赞
虽然通过CDH控制台可以很方便地安装spark客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装spark客户端的方式显然不妥当。在这种情形下,用户自己安装配置spark客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/host……继续阅读 » 九万里大数据 3年前 (2021-04-29) 1735浏览 0评论4个赞
虽然通过CDH控制台可以很方便地安装hadoop客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装hadoop客户端的方式显然不妥当。在这种情形下,用户自己安装配置hadoop客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/h……继续阅读 » 九万里大数据 3年前 (2021-04-28) 2329浏览 0评论10个赞
之前我们讲过伪分布式Hadoop集群安装,但其实这种是单节点集群,并不是真正的分布式集群,只能用来学习和开发测试使用。今天我们从零开始搭建一个完全分布式Hadoop集群,包含了最关键的配置参数,可以直接用于生产环境。企业生产环境也仅仅是在我们今天讲的基础之上,加入了更多的安全性参数和性能调优参数而已。环境准备三台centos7.6虚拟机,配置2C4G 5……继续阅读 » 九万里大数据 3年前 (2021-04-23) 676浏览 0评论7个赞
介绍伪分布式Hadoop集群安装配置,也就是单节点的Hadoop集群,主要用于学习和开发测试等场景。安装JDK首先需要安装JDK下载安装包hadoop官网目前hadoop3.2最新发布的版本是hadoop-3.2.2,清华大学的镜像下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/co……继续阅读 » 九万里大数据 3年前 (2021-04-19) 557浏览 0评论0个赞
ZooKeeper在分布式系统上用的非常多,包括HDFS, HBase, Kafka, YARN, ClickHouse等都借助ZooKeeper实现服务的高可用性。这里介绍ZooKeeper分布式集群的安装和配置。安装JDK首先需要安装JDK下载安装包ZooKeeper官网目前最新的ZooKeeper稳定版是3.6.3,可以通过以下地址找到离自己……继续阅读 » 九万里大数据 3年前 (2021-04-15) 896浏览 0评论0个赞
Azkaban是开源的工作流任务调度工具,起初是LinkedIn用来调度大数据任务的,这里介绍单节点Azkaban的安装。Azkaban官网 https://azkaban.github.ioAzkaban文档 https://azkaban.readthedocs.io/en/latestAzkaban Github https://github.c……继续阅读 » 九万里大数据 3年前 (2021-04-12) 1518浏览 0评论2个赞
下载安装包用户可以通过以下链接选择离自己较快的源下载安装包。http://www.apache.org/dyn/closer.cgi/zeppelin/zeppelin-0.9.0/zeppelin-0.9.0-bin-all.tgzall interpreter package包含了所有的解释器,安装包体积1.5G清华源下载地址:https://……继续阅读 » 九万里大数据 3年前 (2021-04-09) 737浏览 0评论2个赞
Zeppelin自带Spark的Interpreter,只需要简单的配置就可以使用Spark了。首先确认Zeppelin的机器上已安装有Hadoop客户端和Spark客户端,能通过Hadoop客户端连接HDFS,通过Spark客户端提交任务给YARN。配置环境变量cd zeppelin-0.9.0-bin-allvi conf/zeppelin-e……继续阅读 » 九万里大数据 3年前 (2021-04-09) 1883浏览 0评论1个赞