Kafka

FlumeKafkaSqoop Chapter 3：Kafka Advanced Features and Applications（Kafka 的高级特性与应用）

一、Kafka Producer Kafka Producer 是一个向 Kafka 集群发送消息的客户端程序。它负责以消息的形式将数据流发布到指定的主题中。 1、Working Principle of Kafka Producer（Kafka Producer 的工作原理） Producer 以

发布于 2025-12-01

Hive

Hive Chapter 3：HQL Syntax（HQL 语法）

Hive Chapter 3：HQL Syntax（HQL 语法）一、HQL Syntax（HQL 语法） Hive 提供了一种机制，可以在 Hadoop 中的数据之上投射结构，并使用一种类似 SQL 的语言——HiveQL (HQL) 来查询这些数据。之所以使用 Hive，是因为 Hive 中

发布于 2025-11-24

Kafka

FlumeKafkaSqoop Chapter 2：Getting Started with Apache Kafka（Apache Kafka 入门）

一、Kafka Core Concepts（Kafka 核心概念） Apache Kafka 的核心是一个基于 **分区（Partition）**和 **多副本（Replication）**的分布式消息引擎，由 Zookeeper 协调管理。在 Kafka 中，每条消息也被称为一条记录（Reco

发布于 2025-11-10

Flume

FlumeKafkaSqoop Chapter 1：Log Collection and Data Transmission Technology（日志采集与数据传输技术）

一、Log collection and data transmission in big data ecology（大数据生态中的日志采集与数据传输）随着大数据技术的快速发展，一个完整而多样化的大数据生态系统已经形成。这个生态系统通常可描述为由数据采集层、数据计算层和数据应用层组成的三层架构。每

发布于 2025-11-07

Spark

Spark Chapter 3：Scala Foundation（Scala 基础）

一、Basic Scala Concept（Scala 基本概念） Scala 结合了面向对象和函数式编程，是一种简洁的高级语言。 Scala 的静态类型系统有助于在复杂应用中避免错误，它既能运行在 JVM 上，也能运行在 JavaScript 平台上，从而可以轻松构建高性能系统，并访问庞大的类库生

发布于 2025-10-16

Spark

Spark Chapter 2：Operation Modes in Spark（Spark 的运行模式）

一、Introduction of Spark Running Mode（Spark 运行模式介绍） Spark 可以在多种模式下运行，可以在单机上以本地模式或伪分布式模式运行。当在集群中以分布式模式运行时，底层的资源调度可以使用 Mesos、YARN，或者 Spark 自带的 Standalone

发布于 2025-09-18

Hive

Hive Chapter 1：Introduction to Hive（Hive 简介）

一、Hive Introduction（Spark 简介） Apache Hive 是一个开源的数据仓库软件，用于读取、写入和管理存储在 Apache Hadoop 分布式文件系统（HDFS）或其他数据存储系统（如 Apache HBase）中的大型数据集文件。Hive 允许 SQL 开发人员编写类

发布于 2025-09-17