Hadoop Chapter 5:Deep Insight of MapReduce(深入解析 MapReduce)
一、Introduction of MapReduce(MapReduce 简介) MapReduce 是 Hadoop 的处理层。MapReduce 编程模型旨在通过将工作划分为一组独立的任务,来并行处理海量数据。你只需将业务逻辑融入 MapReduce 的工作方式中,其余的部分将由框架自动处理。
Hadoop Chapter 4:HDFS Distributed File System(HDFS 分布式文件系统)
一、Introduction of Hadoop Shell Commands(Hadoop Shell 命令简介) Hadoop 分布式文件系统(HDFS)是一种分布式文件系统,基于“一次写入,多次读取”的理念,具有高容错性和高吞吐量。DataNode 负责处理来自文件系统客户端的读写请求。 HD
Hadoop Chapter 3:Hadoop Composition and Structure(Hadoop 的组成与结构)
一、Hadoop Architecture and Components(Hadoop 架构和组件) Hadoop 采用主从拓扑结构。在这种拓扑结构中,我们有一个主节点(Master Node)和多个从节点(Slave Nodes)。主节点的功能是向各个从节点分配任务并管理资源,而从节点执行实际的计
Hadoop Chapter 2:Hadoop and Big Data Architecture(Hadoop 与大数据架构)
一、Overview of Hadoop Operating Modes(Hadoop 运行模式概述) Hadoop 的四种主要运行模式: 本地运行模式(Local Runtime Mode) 伪分布式运行模式(Pseudo-Distributed Operating Mode) 完全分布式运行模式
Hadoop Chapter 1:Big Data Concept(大数据概念)
本章介绍了大数据的概念、类型、特征及其处理优势,并系统梳理了 Hadoop 生态系统工具和发展历程。大数据指的是体量巨大、类型多样、增长迅速且无法用传统工具高效处理的数据集合,常见类型包括结构化、非结构化和半结构化数据,具有体量大(Volume)、多样性(Variety)、速度快(Velocity)和真实性(Veracity)等特征。通过处理大数据,企业可提升决策效率、优化客户服务、降低风险并增强运营能力。Hadoop 是为大数据而生的开源框架,由 HDFS 和 YARN 组成,具备高可靠性、扩展性与容错性。本章还介绍了 Hadoop 的常用生态工具,如 HBase、Hive、Zookeeper、Sqoop、Storm 等,以及其自 2002 年以来的发展历史和主要发行版。最后通过性能、可扩展性和可靠性三方面介绍了评估 Hadoop 发行版的核心标准。