본문 바로가기
반응형

CS 지식/분산시스템과 컴퓨팅8

[Hadoop] 하둡 MapReduce 1.0 아키텍처와 동작 원리와 MapReduce 2.0의 개선 구조 Hadoop 1.0에서 2.0으로의 진화: 구조, 한계, 그리고 개선 전략Hadoop은 대규모 데이터를 효율적으로 저장하고 처리할 수 있는 분산 시스템의 대표적인 오픈소스 프레임워크다. 그 중 Hadoop MapReduce 1.0은 단순하고 일관된 구조를 바탕으로 초기 빅데이터 생태계를 선도했지만, 대규모 클러스터 환경에서의 확장성과 안정성의 한계를 드러냈다.이 글에서는 먼저 Hadoop 1.0의 아키텍처와 내부 구성요소, 전체 동작 흐름을 세부적으로 살펴본다. 이후 1.0의 근본적인 약점을 어떻게 파악하고 해결하고자 했는지, 그리고 Hadoop 2.0(YARN 기반)으로의 전환이 어떤 배경에서 이루어졌는지를 구조적 비교와 전략적 전환 관점에서 분석한다. 이 글의 구성Hadoop 1.0 아키텍처 해부Jo.. 2025. 4. 9.
[Hadoop] 하둡 MapReduce 동작 원리 MapReduce 프로그래밍 모델 상세 설명하둡의 MapReduce 프로그래밍 모델은 대용량 데이터를 병렬 처리하기 위한 함수 기반 처리 구조를 따르며, 두 가지 핵심 함수로 구성된다.1. Map FunctionInput: (Key, Value) 형태로 입력을 받음예: (Line Number, 문장 내용)Output: List of (Key, Value) 형태로 출력예: "the quick brown fox" → ("the", 1), ("quick", 1), ("brown", 1), ("fox", 1) Map 함수는 주어진 데이터를 원하는 형태로 전처리하는 역할을 한다.2. Reduce FunctionInput: (Key, List) 형태로 입력을 받음예: ("the", [1,1,1,1])Output: .. 2025. 4. 9.
Ceph의 소개와 HDFS와 차이 Ceph: 고확장성 오브젝트 기반 분산 파일 시스템Ceph는 오픈소스 객체 기반 분산 파일 시스템으로, 높은 확장성과 가용성, 유연성을 제공하며 다양한 형태의 스토리지 인터페이스(Block, File, Object)를 지원한다. 특히 클라우드 환경에서 VM 백엔드 저장소, 오브젝트 저장소 등으로 널리 활용된다.1. Ceph의 주요 특징Unified Storage: Block, File, Object 스토리지 지원Scalable: 수만~10만 개 노드까지 확장 가능 (엑사바이트 단위)Active-Active 구조: 모든 컴포넌트가 동시에 읽기/쓰기 처리 가능Self-healing: 장애 발생 시 자동 복구Open Source: GPL 기반, 다양한 상용 서비스에 활용 가능멀티 OS 지원: CentOS, U.. 2025. 4. 3.
HDFS(하둡 분산 파일 시스템) 구조 및 작동 방식 HDFS: Hadoop Distributed File SystemHDFS는 대용량 파일 저장 및 분산 처리에 최적화된 분산 파일 시스템이다. 다음과 같은 설계 철학을 기반으로 한다:설계 목적매우 큰 파일 저장: 수백 MB ~ 수 TB에 이르는 대규모 파일스트리밍 데이터 접근 패턴: Write-once, Read-many-times 방식일반 하드웨어(Commodity Hardware)에서 구동 가능HDFS의 제한 사항HDFS는 모든 유형의 워크로드에 적합하지 않다. 대표적인 제한 사항은 다음과 같다:낮은 지연시간 요구에 부적합: HDFS는 고처리량(Throughput)에 최적화되어 있으며, 실시간 처리에는 부적절하다.예: 실시간 쿼리 → HBase 추천작은 파일이 많은 경우 비효율:메타데이터를 NameNo.. 2025. 4. 3.
하둡(Hadoop)의 아키텍처, 병렬처리, 장애처리 전략 목차1. 하둡 기반 오픈소스의 시대2. 하둡의 마스터-슬레이브 아키텍처3. 병렬처리 구조와 아키텍처 종류, 역사4. 분산 아키텍처 스타일과 하둡 아키텍처의 진화5. 하둡 장애처리 전략6. 하둡 최종 아키텍처⭐️1. 하둡(Hadoop) 기반 빅데이터, AI, 오픈소스 시대과거에는 기업들이 하둡 기반의 시스템들을 오픈소스로 구현해 사용했음.예를 들어 LG 같은 기업도 자체 솔루션을 만들어 활용했음.다양한 기업들이 각자의 하둡 기반 솔루션을 만들어 쓰다가, 어느 시점부터는 내부 시스템으로 정착되어 외부 관심에서는 사라지게 됨.하지만 "사라졌다고 해서 사용하지 않는 것이 아니라", 오히려 내부적으로 안정된 솔루션으로 계속 사용 중임. AI 시대에서도 하둡은 살아 있다지금은 AI 시대이며, 대부분의 분석 및 모델.. 2025. 4. 2.
빅데이터 처리와 람다 아키텍처 소개(Hadoop) 클라우드, AI, 빅데이터 시대의 도래2013년부터 핸드폰 보급률 증가 → 빅데이터 시대 도래2020년 이후 IoT 보급 → 초연결 사회로 진입클라우드는 가상화(Virtualization) 기술을 통해 시스템의 유연성과 확장성을 크게 향상시킴AI는 미래 사회의 필수 기반 기술이 됨 🔧 AI 시대의 핵심 요소컴퓨팅 파워 (GPU, Parallel Processing)Advanced Algorithm (딥러닝, 머신러닝 등)Massive Dataset (대규모 데이터셋)이 3가지 요소가 결합되며, 2017년 이후 본격적인 AI 대중화가 시작됨.빅데이터의 정의: 3V빅데이터는 다음의 3V 특성으로 정의된다.Volume (크기): 대규모 데이터, TB → PB → ZB 단위로 확장Variety (다양성): 정.. 2025. 4. 2.
분산시스템의 아키텍처와 운영체제의 종류 분산 시스템을 구축하는 이유리소스 공유 (Resource Sharing)여러 사용자가 하나의 자원을 공유하여 활용 가능예: 네트워크 프린터, 파일 공유 시스템컴퓨테이션 속도 향상 (Computation Speed Up)여러 노드에서 병렬로 작업을 수행하여 성능 향상예: 분산 컴퓨팅, 클러스터 시스템, 병렬 처리안정성 (Reliability)중요한 데이터를 여러 곳에 복제하여 장애 발생 시 복구 가능예: 데이터센터 내 복제본 저장, MBC M드라이브와 같이 죽으면 안되는 시스템들소통 (Communication)여러 노드 간의 효율적인 데이터 교환 및 협업 가능예: P2P 네트워크, 분산 메시징 시스템분산 시스템의 목표 (Goals of Distributed Systems)이질성 (Heterogeneity).. 2025. 3. 16.