一、Kafka Producer Kafka Producer 是一个向 Kafka 集群发送消息的客户端程序。它负责以消息的形式将数据流发布到指定的主题中。 1、Working Principle of Kafka Producer(Kafka Producer 的工作原理) Producer 以
Hive Chapter 3:HQL Syntax(HQL 语法) 一、HQL Syntax(HQL 语法) Hive 提供了一种机制,可以在 Hadoop 中的数据之上投射结构,并使用一种类似 SQL 的语言——HiveQL (HQL) 来查询这些数据。 之所以使用 Hive,是因为 Hive 中
一、Kafka Core Concepts(Kafka 核心概念) Apache Kafka 的核心是一个基于 **分区(Partition)**和 **多副本(Replication)**的分布式消息引擎,由 Zookeeper 协调管理。 在 Kafka 中,每条消息也被称为一条 记录(Reco
一、Log collection and data transmission in big data ecology(大数据生态中的日志采集与数据传输) 随着大数据技术的快速发展,一个完整而多样化的大数据生态系统已经形成。这个生态系统通常可描述为由数据采集层、数据计算层和数据应用层组成的三层架构。每
一、Basic Scala Concept(Scala 基本概念) Scala 结合了面向对象和函数式编程,是一种简洁的高级语言。 Scala 的静态类型系统有助于在复杂应用中避免错误,它既能运行在 JVM 上,也能运行在 JavaScript 平台上,从而可以轻松构建高性能系统,并访问庞大的类库生
一、Introduction of Spark Running Mode(Spark 运行模式介绍) Spark 可以在多种模式下运行,可以在单机上以本地模式或伪分布式模式运行。当在集群中以分布式模式运行时,底层的资源调度可以使用 Mesos、YARN,或者 Spark 自带的 Standalone
一、Hive Introduction(Spark 简介) Apache Hive 是一个开源的数据仓库软件,用于读取、写入和管理存储在 Apache Hadoop 分布式文件系统(HDFS)或其他数据存储系统(如 Apache HBase)中的大型数据集文件。Hive 允许 SQL 开发人员编写类
一、Ansible 概述 1、Ansible 简介 Ansible 是一个 开源的自动化平台,使用 Playbook(YAML 语言编写)描述并执行 IT 架构和任务。它的核心是 automation engine,用于解析和运行 Playbook,实现配置管理、应用部署、运维编排等功能。 二、红帽
一、Spark Introduction(Spark 简介) 设想一个场景:每个人都用过 QQ,它会不定期地给你推荐一些你可能认识的人。那么,这些数据是从哪里来的呢?实际上,它是通过分析每个人的好友列表数据得出的。一个人的好友列表数据量非常庞大,光是存储就是一个问题,更不用说数据处理了。这时,我们就