Table of contents Practical Data Pipeline 시작 전에 드리는 당부의 말 01 - 데이터 인프라 1.1 데이터 파이프라인 1.2 데이터 입수 (Ingestion) 1.2 데이터 가공 (Processing) 1.3 데이터 저장 (Storage) 1.4 데이터 분석 (Analysis) 02 - 데이터 처리 2.1 데이터 처리 2.2 배치 (Batch) 처리 2.1.1 Spark Intro 2.1.2 Spark Tutorial 2.1.3 Spark Concept 2.1.4 Spark Architecture 2.1.5 Spark DataFrame 2.1.6 Spark Persistence 2.1.7 Spark Cache 2.1.8 Spark SQL & Table 2.1.9 Spark Join 2.2.1 Spark Memory 2.2.2 Spark Versions 2.3 워크플로우 (Workflow) 관리 2.4 스트림 (Stream) 처리 2.4.1 Kafka Intro 2.4.2 Kafka Advanced 2.4.3 Spark Streaming 2.4.4 Streaming Window 2.4.5 Streaming State 2.4.6 Streaming Sink 04 - 데이터 스토리지 4.1 Kafka 4.1 Kafka Concept 4.2 Kafka Advanced 4.3 Kafka Versions 4.2 Redis 4.3 RDB (MySQL) 4.4 ElasticSearch 4.5 KV Storage (DynamoDB) 4.6 Druid 05 - 데이터 애플리케이션 5.1 데이터 서비스 5.2 통계 서비스 5.3 추천 서비스 5.4 A/B 테스팅 08 - Case Study Week 1 - Data Pipeline Week 2 - EMR & Kubernetes Week 3 - Metastore Week 4 - KV & Delta Storage Week 5 - Kafka Rebalancing Week 6 - ML Pipeline 09 - 설치 및 환경 구성 Spark 설치 및 환경 구성 Spark - Local Shell 환경 Spark - Local Jupyter 환경 Spark - Kubernetes 환경 Spark - EMR 환경 Spark - Databricks 환경 (SaaS) Flink 설치 및 환경 구성 Kafka 설치 및 환경 구성 MySQL 설치 및 환경 구성 DynamoDB 사용을 위한 환경 구성 ElasticSearch 설치 및 환경 구성 Presto 설치 및 환경 구성 Druid 설치 및 환경 구성