当前位置：首页 > news >正文

Hadoop HDFS 体系结构与文件读写流程剖析

news 2025/8/13 2:20:31

Hadoop HDFS 体系结构与文件读写流程剖析

一、HDFS 理论基础

HDFS（Hadoop Distributed File System） 是 Hadoop 的分布式文件系统，专为大规模数据存储和高吞吐量访问设计，具备高容错性和可扩展性，适合部署在廉价硬件集群上。

1. 主要组件

NameNode：负责管理文件系统的元数据（如目录结构、文件到块的映射、块副本位置等）。
DataNode：负责实际数据块的存储、读写操作。
Secondary NameNode：辅助 NameNode 合并编辑日志与镜像文件（fsimage），并非主备节点。
Client：HDFS 用户，负责发起读写请求。

2. 数据存储方式

块（Block）：HDFS 将文件切分为块（默认128MB），每块独立存储。
副本机制：每个数据块有多个副本（默认3份），分布在不同 DataNode 上，实现容错。

二、HDFS 读写流程

1. 写入（上传）流程

客户端请求上传：向 NameNode 发送创建文件请求。
NameNode 分配资源：检查目录和文件、分配块及 DataNode 列表，登记元数据。
客户端写入数据块：
- 客户端将数据切分为块，采用流水线机制依次写入 DataNode 副本。
- 每写完一个块，继续请求 NameNode 分配下一个块的 DataNode 列表。
写入完成通知：所有块写入完毕后，客户端通知 NameNode，NameNode 更新元数据。

纯文本流程图

Client||--(1)请求创建文件--> NameNode||<--(2)分配Block和DataNode列表---||--(3)写数据块到DataNode1|------------------------->DataNode2|------------------------->DataNode3||--(4)写完通知NameNode

Mermaid 时序图

2. 读取（下载）流程

客户端请求读取：向 NameNode 请求文件块位置信息。
NameNode 返回位置信息：返回所有块及其 DataNode 位置。
客户端读取数据块：直接从 DataNode 读取数据块（可并行）。
数据组装：客户端将块数据按顺序组装为完整文件。

纯文本流程图

Client||--(1)请求读取文件--> NameNode||<--(2)返回Block和DataNode位置---||--(3)直接从DataNode读取数据块||--(4)组装为完整文件

Mermaid 时序图

三、HDFS 特点总结

高容错性：多副本机制，节点故障不影响数据可用性。
高吞吐量：适合大文件批量处理，不适合低延迟小文件操作。
良好扩展性：可通过增加节点轻松扩容。
流式数据访问：一次写入，多次读取，适合大数据分析场景。

四、Markdown 流程图说明

纯文本流程图：任何 Markdown 工具都能显示。
Mermaid 语法：需支持 Mermaid 渲染的 Markdown 编辑器（如 Typora、Obsidian、语雀、Gitee、GitHub 等）才能看到图形效果。

五、参考架构图

在这里插入图片描述
—如需了解 HDFS 代码示例、API 使用、部署细节等，欢迎继续提问！

查看全文

http://www.lqws.cn/news/95401.html

解决 idea提示`SQL dialect is not configured` 问题

学习threejs，交互式神经网络可视化

RAG入门 - Reader（2）

Web3如何重塑数据隐私的未来

JsonCpp 库如何集成到Visual studio

【Visual Studio 2022】卸载安装，ASP.NET

动态规划十大经典题型状态转移、模版等整理（包括leetcode、洛谷题号）

基于LLaMA-Factory和Easy Dataset的Qwen3微调实战：从数据准备到LoRA微调推理评估的全流程指南

每日算法刷题Day21 6.3:leetcode二分答案2道题，用时1h20min(有点慢)

关于Qt项目配置，项目编译生成的库文件路径详解

Git 常用命令 - 服务器用

LangChain系列之LangChain4j集成Spring Bot

es 的字段类型（text和keyword）

https(SSL)证书危机和可行的解决方案

软考系统架构设计师系列知识点之杂项集萃（79）

(10)Fiddler抓包-Fiddler如何设置捕获Firefox浏览器的Https会话

进阶配置与优化：配置 HTTPS 以确保数据安全传输

HttpServletResponse 对象用来做什么？

Linux 下 ChromeDriver 安装

React前端框架

isp调试 blend模式指什么

XCTF-web-ics-05

JavaScript性能优化实战：从核心原理到工程实践的全流程解析

从0开始使用 Vue3 和 TypeScript 搭建项目详细教程

在 Vite 中如何处理静态资源

【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting

【python与生活】用 Python 从视频中提取音轨：一个实用脚本的开发与应用

八.MySQL复合查询

对老项目进行node升级兼容

生产环境MYSQL常见锁表场景

Hadoop HDFS 体系结构与文件读写流程剖析

一、HDFS 理论基础

1. 主要组件

2. 数据存储方式

二、HDFS 读写流程

1. 写入（上传）流程

纯文本流程图

Mermaid 时序图

2. 读取（下载）流程

纯文本流程图

Mermaid 时序图

三、HDFS 特点总结

四、Markdown 流程图说明

五、参考架构图

相关文章：