🐘
DOC
BigDataGuide
BigDataGuide
  • 概览
  • bigdata
    • hadoop
      • Hadoop高可用配置
      • HDFS
        • HDFS shell 命令
        • HDFS集群管理
      • MapReduce
        • MapReduce数据操作
        • 分布式处理框架MapReduce
        • MapReduce输入输出剖析
        • MapReduce的工作原理剖析
      • Yarn
        • YARN快速入门
        • Yarn生产配置
    • scheduler
      • Azkaban生产实践
      • 系统架构
    • zookeeper
      • ZookeeperOverView
      • Zookeeper操作与部署
    • cache
      • alluxio
        • AlluxioConfiguration
        • AlluxioDeployment
        • AlluxioOverView
        • AlluxioWithEngine
    • collect
      • canal
        • CanalOverView
      • debezium
        • DebeziumOverView
        • Debezium使用改造
        • Debezium监控系统搭建
      • flume
        • FlumeOverwrite
        • Flume对接Kafka
      • sqoop
        • SqoopOverview
        • Sqoop实战操作
    • datalake
      • hudi
        • Flink基于Apache Hudi+Alluxio的数据湖实践
        • hudiOverview
        • hudiWithFlink
        • hudiWithSpark
        • hudi原理分析
        • hudi数据湖实践
        • hudi调优实践
      • iceberg
        • IcebergWithSpark
        • icebergOverview
        • icebergWithFlink
        • icebergWithHive
    • engine
      • spark
        • SparkOnDeploy
        • SparkOverwrite
        • Spark存储体系
        • Spark计算引擎和Shuffle
        • Spark调优
        • Spark调度系统
        • Spark部署模式
        • 从浅到深剖析Spark源码
        • practice
          • Spark实践
        • spark sql
          • SparkSQL API
        • spark sql
          • SparkSQL优化分析
        • spark streaming
          • SparkStreaming整合Flume
        • 源码分析
          • Spark内存管理
        • 源码分析
          • Spark核心对象
        • 源码分析
          • Spark通信架构
        • 源码分析
          • Spark调度和Shuffle解析
        • 源码分析
          • yarn的部署流程
      • flink
        • connector
          • 自定义TableConnector
        • core
          • Checkpoint机制剖析
          • FlinkOverview
          • 状态处理API
          • TableSQLOverview
        • feature
          • Flink1.12新特性
          • Flink1.13新特性
          • Flink1.14新特性
        • monitor
          • Flink运维监控
          • 搭建Flink任务指标监控系统
        • practice
          • Flink On K8s
          • 记录一次Flink反压问题
        • sourcecode
          • Flink Kafka Connector源码分析
          • FlinkCheckpoint源码分析
          • Blink Planner
          • FlinkTimerService机制分析
          • Flink内核源码分析
          • Flink窗口实现应用原理
          • Flink网络流控及反压
          • Flink运行环境源码解析
          • StreamSource源解析
          • TaskExecutor内存模型原理深入
        • books
          • Flink内核原理与实现
            • 第11-13章Task执行数据交换等
    • graph
      • nebula graph
        • 1.简介
      • nebula graph
        • 2.快速入门
    • kvstore
      • hbase
        • HBaseOverview
        • HBase整合第三方组件
        • Hbase 过滤器详解
      • rocksdb
        • RocksDB On Flink
        • RocksdbOverview
        • Rocksdb组件描述
        • Rocksdb配置
    • mq
      • kafka
        • Kafka Eagle
        • Kafka概念
        • 消费者源码剖析
        • 生产者源码剖析
        • kafka权威指南
          • 1.kafka入门
          • 2.安装Kafka
          • 3.Kafka生产者
          • 4.Kafka消费者
          • 5.深入Kafka
          • 6.可靠的消息传输
          • 7.构建数据管道
          • 8.跨集群数据镜像
          • 9.管理Kafka
        • 深入理解Kafka
          • 深入理解Kafka读书笔记
      • pulsar
        • 1.快速入门
        • 2.原理与实践
    • olap
      • clickhouse
        • ClickHouseOverView
      • druid
        • 概述
      • hive
        • Hive Shell和Beeline命令
        • HiveOverwrite
        • Hive分区表和分桶表
        • hive编程指南
          • 1.基础知识
          • 2.数据类型和文件格式
          • 3.HiveQL相关
          • 4.索引
          • 5.模式设计
          • 7.其他文件格式和压缩方法
          • 8.函数开发
          • 9.文件和记录格式以及Thrift服务
          • 10.存储和安全以及锁
          • 11.HCatalog
      • impala
        • ImpalaOverView
        • Impala Script
        • 使用Impala查询Kudu表
      • kudu
        • KuduConfiguration
        • KuduOverView
        • 表和模式设计
        • Kudu原理分析
        • Kudu生产实践
        • paper
          • KuduPaper阅读
      • kylin
        • 概述
      • presto
        • PrestoOverview
    • tools
      • sqltree
        • calcite
          • 快速入门
  • datawarehouse
    • 数据中台模块设计
      • thoth
      • 数据中台设计
    • 方案实践
      • Kudu数据冷备方案
      • 基于Flink的实时数仓建设
    • 理论
      • 数据仓库概念
      • devops
        • k8s-openshift客户端命令使用
        • maven
          • Maven命令
          • 制作maven骨架
      • 数据中台读书笔记
      • 数据仓库实战
  • base
    • algorithm
      • 算法题解
    • datastructure
      • 数据结构
    • scala
      • Scala基础
    • 分布式理论
      • Raft一致性算法
      • 分布式架构
    • 计算机理论
      • LSM存储模型
    • java
      • 并发编程
        • 并发工具类concurrent
        • 认识并发编程
  • mac os
    • iterm2
      • 多tab操作
  • servicemonitor
    • Prometheus
      • 安装
  • 贡献者指南
由 GitBook 提供支持
在本页
  • repository
  • 概述
  • RoadMap
  • 基础能力
  • 算法
  • BigData
  • 数据仓库建设
  • devops
  • maven
  • 服务监控
  • mac
  • 贡献方式
  • 技术分享
在GitHub上编辑

概览

知识库概览

下一页bigdata

最后更新于1年前

repository

概述

  • 个人学习知识库涉及到数据仓库建模、实时计算、大数据、Java、算法等。

RoadMap

基础能力

数据结构

分布式理论

计算机理论

Scala

JVM

Java

并发编程

JDK源码

todo

算法

BigData

cache

数据编排技术

alluxio

datalake

hudi

iceberg

kvstore

K-V结构存储,如Hbase、RocksDb(内嵌KV存储)等

rocksDB

HBase

Hadoop

广义上的Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等。

HDFS

MapReduce

Yarn

生产配置

Engine

计算引擎相关,主要包含Flink、Spark等

Flink

  • 主要包含对Flink文档阅读的总结和相关Flink源码的阅读,以及Flink新特性记录等等

Core

SourceCode

Book

Flink内核原理与实现

Feature

Practice

Connector

monitor

Spark

主要包含Spark相关书籍读书笔记、Spark核心组件分析、Spark相关API实践以及Spark生产踩坑等。

Spark Core

Spark SQL

Spark Practice

Spark Streaming

源码解析

Collect

数据采集框架,主要包含Binlog增量与SQL快照方式框架

Canal

Debezium

Flume

Sqoop

MQ

消息中间件相关,主要包含大数据中使用比较多的Kafka和Pulsar

Kafka

Pulsar

Zookeeper

schedule

Azkaban

DolphinScheduler

olap

主要核心包含Kudu、Impala相关Olap引擎,生产实践及论文记录等。

Hive

Presto

clickhouse

Druid

Kylin

Kudu

paper

Impala

graph

图库相关

nebula graph

tools

工具集相关,包含计算平台、sql语法Tree等

zeppelin

SQL语法树

calcite

数据仓库建设

理论

数据中台设计

方案实践

读书笔记

devops

maven

服务监控

mac

贡献方式

技术分享

欢迎通过参与贡献

在线文档
分布式架构
LSM存储模型
ScalaOverView
认识并发编程
并发工具包
算法题解
Alluxio概览
Alluxio部署
Alluxio整合计算引擎
Hudi概览
Hudi整合Spark
Hudi整合Flink
Hudi调优实践
Hudi原理分析
hudi数据湖实践
IceBerg概览
IceBerg整合Flink
IceBerg整合Hive
IceBerg整合Spark
rocksDB概述
rocksDB配置
rocksDB组件描述
rocksdb on flink
rocksdb API
HBase概览
HBaseShell
HBaseJavaAPI
HBase整合MapReduce
HBase过滤器
Hadoop快速入门
HDFSOverView
Hadoop广义生态系统
Hadoop高可用配置
HadoopCommon分析
HDFS集群相关管理
HDFS Shell
分布式处理框架MapReduce
MapReduce概览
MapReduce调优
MapReduce数据相关操作
MapReduce输入输出剖析
MapReduce的工作机制
Yarn快速入门
Hadoop高可用配置
Hadoop生产相关配置
FlinkOverView
CheckPoint机制
TableSQLOverview
DataStream API
ProcessFunction API
Data Source
Table API
Flink SQL
Flink Hive
Flink CEP
Flink Function
DataSource API
FlinkCheckpoint源码分析
FlinkSQL源码解析
Flink内核源码分析
Flink网络流控及反压
TaskExecutor内存模型原理深入
Flink窗口实现应用
Flink运行环境源码解析
FlinkTimerService机制分析
StreamSource源解析
Flink状态管理与检查点机制
1-3章读书笔记
第4章时间与窗口
5-6章读书笔记
第7章状态原理
第8章作业提交
第9章资源管理
第10章作业调度
第11-13章Task执行数据交换等
Flink1.12新特性
Flink1.13新特性
Flink1.14新特性
Flink踩坑指南
记录一次Flink反压问题
Flink SQL实践调优
Flink On K8s实践
自定义Table Connector
搭建Flink任务指标监控系统
Spark基础入门
SparkOnDeploy
Spark调度系统
Spark计算引擎和Shuffle
Spark存储体系
Spark大数据处理读书笔记
SparkCore
SparkOperator
SparkConnector
SparkSQLAPI
SparkSQL
SparkSQL API
SparkSQL优化分析
Spark生产实践
SparkStreaming
SparkStreaming整合Flume
从浅到深剖析Spark源码
源码分析系列
CanalOverView
DebeziumOverView
Debezium踩坑
Debezium监控系统搭建
Debezium使用改造
Flume快速入门
Flume对接Kafka
SqoopOverview
Sqoop实战操作
kafka概览
基本概念
kafka监控
生产者源码剖析
消费者源码剖析
kafkaShell
kafka权威指南读书笔记
深入理解Kafka读书笔记
快速入门
原理与实践
Zookeeper原理和参数配置
Zookeeper操作与部署
Azkaban生产实践
DolphinScheduler快速开始
HiveOverwrite
Hive SQL
Hive调优指南
Hive踩坑解决方案
Hive编程指南读书笔记
Hive Shell Beeline
Hive分区表和分桶表
presto概述
ClickHouse快速入门
ClickHouse表引擎
Druid概述
Kylin概述
KuduOverView
Kudu表和Schema设计
KuduConfiguration
Kudu原理分析
Kudu踩坑
Kudu存储结构架构图
Kudu生产实践
Kudu论文阅读
ImpalaOverView
ImpalaSQL
Impala操作KUDU
Impala生产实践
1.简介
2.快速入门
zeppelin
ApacheCalciteOverView
数据建模
数据仓库建模
数据仓库
数据中台设计
thoth自研元数据平台设计
Kudu数据冷备
基于Flink的实时数仓建设
数据中台读书笔记
shell命令
Linux命令
openshift基础命令
maven骨架制作
maven命令
Prometheus
iterm2
Gitter
贡献者指南
Stargazers over time
License
img.png
roadMap