본문 바로가기
반응형

Server-side 개발 & 트러블 슈팅/Hadoop (하둡)10

[Hadoop] 하둡 MapReduce 동작 원리 MapReduce 프로그래밍 모델 상세 설명하둡의 MapReduce 프로그래밍 모델은 대용량 데이터를 병렬 처리하기 위한 함수 기반 처리 구조를 따르며, 두 가지 핵심 함수로 구성된다.1. Map FunctionInput: (Key, Value) 형태로 입력을 받음예: (Line Number, 문장 내용)Output: List of (Key, Value) 형태로 출력예: "the quick brown fox" → ("the", 1), ("quick", 1), ("brown", 1), ("fox", 1) Map 함수는 주어진 데이터를 원하는 형태로 전처리하는 역할을 한다.2. Reduce FunctionInput: (Key, List) 형태로 입력을 받음예: ("the", [1,1,1,1])Output: .. 2025. 4. 9.
HDFS(하둡 분산 파일 시스템) 구조 및 작동 방식 HDFS: Hadoop Distributed File SystemHDFS는 대용량 파일 저장 및 분산 처리에 최적화된 분산 파일 시스템이다. 다음과 같은 설계 철학을 기반으로 한다:설계 목적매우 큰 파일 저장: 수백 MB ~ 수 TB에 이르는 대규모 파일스트리밍 데이터 접근 패턴: Write-once, Read-many-times 방식일반 하드웨어(Commodity Hardware)에서 구동 가능HDFS의 제한 사항HDFS는 모든 유형의 워크로드에 적합하지 않다. 대표적인 제한 사항은 다음과 같다:낮은 지연시간 요구에 부적합: HDFS는 고처리량(Throughput)에 최적화되어 있으며, 실시간 처리에는 부적절하다.예: 실시간 쿼리 → HBase 추천작은 파일이 많은 경우 비효율:메타데이터를 NameNo.. 2025. 4. 3.
하둡(Hadoop)의 아키텍처, 병렬처리, 장애처리 전략 목차1. 하둡 기반 오픈소스의 시대2. 하둡의 마스터-슬레이브 아키텍처3. 병렬처리 구조와 아키텍처 종류, 역사4. 분산 아키텍처 스타일과 하둡 아키텍처의 진화5. 하둡 장애처리 전략6. 하둡 최종 아키텍처⭐️하둡(Hadoop) 기반 빅데이터, AI, 오픈소스 시대과거에는 기업들이 하둡 기반의 시스템들을 오픈소스로 구현해 사용했음.예를 들어 LG 같은 기업도 자체 솔루션을 만들어 활용했음.다양한 기업들이 각자의 하둡 기반 솔루션을 만들어 쓰다가, 어느 시점부터는 내부 시스템으로 정착되어 외부 관심에서는 사라지게 됨.하지만 "사라졌다고 해서 사용하지 않는 것이 아니라", 오히려 내부적으로 안정된 솔루션으로 계속 사용 중임. AI 시대에서도 하둡은 살아 있다지금은 AI 시대이며, 대부분의 분석 및 모델링 도.. 2025. 4. 2.