[Apache] Apache Spark의 개념

Infra/Apache

[Apache] Apache Spark의 개념

carsumin 2025. 2. 20. 20:39

Apache Spark 란?

대규모 데이터 처리를 위한 분산 컴퓨팅 프레임워크
여러대의 컴퓨터를 묶어 하나의 거대한 연산 장비처럼 동작하게 만들어 빅데이터를 빠르게 분석하고 처리 가능

Apache Spark 핵심 개념

분산 처리 (Distributed Computing)
- Spark는 데이터를 여러 노드로 나눠서 병렬로 처리하기 때문에 단일서버보다 빠른 속도로 분석이 가능
메모리 기반 처리 (In-Memory Computing)
- Spark는 데이터를 메모리(RAM)에 저장한 채로 연산을 이어가기 때문에 빠름
RDD (Resilient Distributed Dataset)
- Spark의 핵심 자료구조
- RDD는 분산된 데이터의 불변한 컬렉션으로 병렬 연산이 가능하며 장애가 발생해도 복구 가능한 구조

Apache Spark 주요 구성요소

Spark Core - RDD 기반의 기본 연산 기능 (map, filter, reduce 등)
Spark SQL - SQL 문법으로 데이터를 다루는 모듈
Spark Streaming - 실시간 데이터 스트림 처리 (Kafka 등과 연계)
MLlib - 머신러닝 알고리즘 라이브러리 (분류, 회귀, 클러스터링 등)
GraphX - 그래프 데이터 처리용 API

Spark 실행구조

Driver Program
 ├── SparkContext (작업 지휘자)
 └── Cluster Manager (자원 할당)
       ├── Worker Nodes
       │    ├── Executor (실제 작업 수행)
       │    └── Task (실행 단위)

Driver Program : Spark 애플리케이션의 시작점 (ex : main() 함수)
Cluster Manager : 클러스터의 자원을 관리 (Kebernetes 등)
Executor : 실제 데이터를 처리하는 프로세스
Task : Executor 에서 실행되는 세부 연산 단위

Apache Spark 가 사용되는 분야

데이터 처리 (ETL)
데이터 분석
머신러닝 파이프라인
실시간 스트리밍 분석
데이터 웨어하우스 연동

Spark vs Hadoop

구분	Apache Spark	Hadoop MapReduce
처리속도	매우 빠름 (In-Memory)	느림 (Disk I/O 중심)
API	간결하고 직관적 (Python, Java 지원)	상대적으로 복잡
실시간 처리	가능 (Streaming)	불가능
머신러닝 지원	내장 (MLlib)	외부 라이브러리 필요
장애 복구	자동 (RDD Lineage)	수동 설정 필요

저작자표시 비영리 변경금지 (새창열림)

'Infra > Apache' 카테고리의 다른 글

[Apache] Apache Kafka의 개념 (2)	2025.02.25
[Apache] Apache Airflow의 개념 (0)	2025.02.20

현재글[Apache] Apache Spark의 개념

carsumin devlog 🍀

[Apache] Apache Spark의 개념

'Infra > Apache' 카테고리의 다른 글

'Infra/Apache'의 다른글

티스토리툴바

[Apache] Apache Spark의 개념

'Infra > Apache' 카테고리의 다른 글

'Infra/Apache'의 다른글

관련글

티스토리툴바