본문 바로가기
반응형

맵리듀스3

[Hadoop] 하둡 Inverted Index 실습 가이드 (Fully Distributed 모드) Hadoop Inverted Index 실습이 글에서는 Hadoop Fully Distributed Mode 환경에서 Inverted Index를 만드는 실습을 진행합니다. Inverted Index는 검색 엔진에서 핵심적으로 사용되는 자료구조로, 각 단어가 어떤 문서에 등장했는지를 저장합니다. 이 실습에 앞서 HDFS가 구축이 돼야 합니다.https://konkukcodekat.tistory.com/252 [Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드)Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및.. 2025. 4. 14.
[Hadoop] 하둡 MapReduce 1.0 아키텍처와 동작 원리와 MapReduce 2.0의 개선 구조 Hadoop 1.0에서 2.0으로의 진화: 구조, 한계, 그리고 개선 전략Hadoop은 대규모 데이터를 효율적으로 저장하고 처리할 수 있는 분산 시스템의 대표적인 오픈소스 프레임워크다. 그 중 Hadoop MapReduce 1.0은 단순하고 일관된 구조를 바탕으로 초기 빅데이터 생태계를 선도했지만, 대규모 클러스터 환경에서의 확장성과 안정성의 한계를 드러냈다.이 글에서는 먼저 Hadoop 1.0의 아키텍처와 내부 구성요소, 전체 동작 흐름을 세부적으로 살펴본다. 이후 1.0의 근본적인 약점을 어떻게 파악하고 해결하고자 했는지, 그리고 Hadoop 2.0(YARN 기반)으로의 전환이 어떤 배경에서 이루어졌는지를 구조적 비교와 전략적 전환 관점에서 분석한다. 이 글의 구성Hadoop 1.0 아키텍처 해부Jo.. 2025. 4. 9.
[Hadoop] 하둡 MapReduce 동작 원리 MapReduce 프로그래밍 모델 상세 설명하둡의 MapReduce 프로그래밍 모델은 대용량 데이터를 병렬 처리하기 위한 함수 기반 처리 구조를 따르며, 두 가지 핵심 함수로 구성된다.1. Map FunctionInput: (Key, Value) 형태로 입력을 받음예: (Line Number, 문장 내용)Output: List of (Key, Value) 형태로 출력예: "the quick brown fox" → ("the", 1), ("quick", 1), ("brown", 1), ("fox", 1) Map 함수는 주어진 데이터를 원하는 형태로 전처리하는 역할을 한다.2. Reduce FunctionInput: (Key, List) 형태로 입력을 받음예: ("the", [1,1,1,1])Output: .. 2025. 4. 9.