背景在Hadoop 1.x的时候,NameNode存在单点故障问题。如果NameNode进程或者所在的机器有故障,会导致整个集群不可用,直到NameNode进程重启或者所在的机器恢复。在hadoop 2.x之后,增加了NameNode的HA机制。即在一个HDFS集群中运行两个NameNode节点,一个是Active状态的,一个是Standby状态的。当Ac……继续阅读 » 九万里大数据 2年前 (2021-08-18) 1979浏览 0评论1个赞
Hadoopcom.hadoop.compression.lzo.LzoCodec not found[root@jwldata01 hadoop]# hadoop fs -text /data/bank.db/account/ds=2020-09-21/000000_0.lzo21/07/05 16:23:38 WARN util.NativeCo……继续阅读 » 九万里大数据 2年前 (2021-07-23) 2333浏览 0评论2个赞
当HDFS配置了NameNode HA后,通过zookeeper-client访问ZooKeeper的/hadoop-ha/nameservice1/ActiveStandbyElectorLock会报错。报错信息:[root@ctkf01 ~]# zookeeper-client[zk: localhost:2181(CONNECTED) 3] l……继续阅读 » 九万里大数据 3年前 (2021-06-07) 715浏览 0评论2个赞
NameNode与fsimage、edits文件NameNode(简称NN)负责管理和保存HDFS中所有的元数据,包括但不限于文件/目录结构、文件权限、块ID/大小/数量、副本策略等等。当NameNode在运行时,元数据都是保存在内存中,以保证响应时间。元数据同时也会持久化到磁盘,dfs.namenode.name.dir参数指定了元数据的磁盘保存路径。N……继续阅读 » 九万里大数据 3年前 (2021-05-21) 1646浏览 0评论5个赞
Hadoop Distributed File System (HDFS)是一种分布式文件系统,具有高容错性,可运行在廉价的硬件上,具有高吞吐量,特别适合存放大规模数据集。HDFS实际架构非常复杂,今天通过一篇文章来浓缩最关键的几个点,结合图和源码等理解HDFS体系架构。系统设计目标硬件故障具有硬件故障检测能力,可自动快速恢复。流式数据访问高数据……继续阅读 » 九万里大数据 3年前 (2021-05-10) 1335浏览 0评论0个赞
场景:hadoop集群双网卡,客户端在集群外,客户端只能访问外网IP。默认客户端连接hadoop是通过IP地址的,即使在客户端配置的/etc/hosts里为外网IP和域名的映射关系,也会连内网IP,导致无法访问datanode的1004端口,无法实现文件的上传和下载。为了在hadoop集群内能使用内网网卡,hadoop集群外能使用外网网卡,充分利用网络带宽,……继续阅读 » 九万里大数据 3年前 (2021-05-03) 1374浏览 0评论2个赞
虽然通过CDH控制台可以很方便地安装hadoop客户端,但如果客户端机器并不属于自己管辖,通过这种先安装cloudera manager agent再安装hadoop客户端的方式显然不妥当。在这种情形下,用户自己安装配置hadoop客户端,是最好的方式。安装JDK首先需要安装JDK配置hosts将服务端的hosts全部配置,添加到客户端的/etc/h……继续阅读 » 九万里大数据 3年前 (2021-04-28) 2329浏览 0评论10个赞
之前我们讲过伪分布式Hadoop集群安装,但其实这种是单节点集群,并不是真正的分布式集群,只能用来学习和开发测试使用。今天我们从零开始搭建一个完全分布式Hadoop集群,包含了最关键的配置参数,可以直接用于生产环境。企业生产环境也仅仅是在我们今天讲的基础之上,加入了更多的安全性参数和性能调优参数而已。环境准备三台centos7.6虚拟机,配置2C4G 5……继续阅读 » 九万里大数据 3年前 (2021-04-23) 676浏览 0评论7个赞
介绍伪分布式Hadoop集群安装配置,也就是单节点的Hadoop集群,主要用于学习和开发测试等场景。安装JDK首先需要安装JDK下载安装包hadoop官网目前hadoop3.2最新发布的版本是hadoop-3.2.2,清华大学的镜像下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/co……继续阅读 » 九万里大数据 3年前 (2021-04-19) 557浏览 0评论0个赞