본문 바로가기
반응형

MapReduce5

[hadoop] 하둡 PageRank 알고리즘 개념과 MapReduce를 이용한 실습 Hadoop 기반 PageRank 실습 블로그PageRank 알고리즘 개요PageRank는 웹페이지 간의 링크 구조를 바탕으로 페이지의 상대적인 중요도를 측정하기 위한 알고리즘으로, 구글의 공동 창업자 Larry Page와 Sergey Brin이 개발하였다. 이는 그래프 형태로 표현된 웹 구조에서 각 노드(페이지)의 중요도를 반복적으로 계산하여 수렴시키는 방식이다.핵심 개념링크는 투표다: A가 B로 링크를 건다면, 이는 A가 B를 중요하다고 ‘투표’한 것이다.중요한 페이지로부터 받은 투표는 더 큰 가치가 있다.링크를 많이 건 페이지는 투표 가치를 나눠준다.모든 페이지의 PR 값은 반복 계산을 통해 안정화된다.Damping Factor (보통 0.85): 링크를 따라갈 확률. 나머지는 무작위 이동.행렬 기.. 2025. 4. 20.
[Hadoop] 하둡 Inverted Index 실습 가이드 (Fully Distributed 모드) Hadoop Inverted Index 실습이 글에서는 Hadoop Fully Distributed Mode 환경에서 Inverted Index를 만드는 실습을 진행합니다. Inverted Index는 검색 엔진에서 핵심적으로 사용되는 자료구조로, 각 단어가 어떤 문서에 등장했는지를 저장합니다. 이 실습에 앞서 HDFS가 구축이 돼야 합니다.https://konkukcodekat.tistory.com/252 [Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드)Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및.. 2025. 4. 14.
[Hadoop] 하둡 MapReduce 기본 실습 가이드 (Fully Distributed 모드) Hadoop MapReduce실습 - WordCount standalone 모드로 실습하는 법 (HDFS 사용X)https://konkukcodekat.tistory.com/251 [Hadoop] 하둡 설치 및 Standalone 모드로 wordCount 기본 예제 실습Hadoop 실습 환경 구성 (VM 기반)https://konkukcodekat.tistory.com/250 [Hadoop] 하둡 실습을 위한 VM 환경 세팅 (virtual box, VMware Fusion)Ubuntu 기반 하둡 실습 환경 구축: 네트워크 설정 가이드 하둡 실습을 위해선 Vkonkukcodekat.tistory.com Fully Distributed 모드로 실행하기 위해서는 HDFS 실행이 돼야한다.https://kon.. 2025. 4. 14.
[Hadoop] 하둡 MapReduce 1.0 아키텍처와 동작 원리와 MapReduce 2.0의 개선 구조 Hadoop 1.0에서 2.0으로의 진화: 구조, 한계, 그리고 개선 전략Hadoop은 대규모 데이터를 효율적으로 저장하고 처리할 수 있는 분산 시스템의 대표적인 오픈소스 프레임워크다. 그 중 Hadoop MapReduce 1.0은 단순하고 일관된 구조를 바탕으로 초기 빅데이터 생태계를 선도했지만, 대규모 클러스터 환경에서의 확장성과 안정성의 한계를 드러냈다.이 글에서는 먼저 Hadoop 1.0의 아키텍처와 내부 구성요소, 전체 동작 흐름을 세부적으로 살펴본다. 이후 1.0의 근본적인 약점을 어떻게 파악하고 해결하고자 했는지, 그리고 Hadoop 2.0(YARN 기반)으로의 전환이 어떤 배경에서 이루어졌는지를 구조적 비교와 전략적 전환 관점에서 분석한다. 이 글의 구성Hadoop 1.0 아키텍처 해부Jo.. 2025. 4. 9.
[Hadoop] 하둡 MapReduce 동작 원리 MapReduce 프로그래밍 모델 상세 설명하둡의 MapReduce 프로그래밍 모델은 대용량 데이터를 병렬 처리하기 위한 함수 기반 처리 구조를 따르며, 두 가지 핵심 함수로 구성된다.1. Map FunctionInput: (Key, Value) 형태로 입력을 받음예: (Line Number, 문장 내용)Output: List of (Key, Value) 형태로 출력예: "the quick brown fox" → ("the", 1), ("quick", 1), ("brown", 1), ("fox", 1) Map 함수는 주어진 데이터를 원하는 형태로 전처리하는 역할을 한다.2. Reduce FunctionInput: (Key, List) 형태로 입력을 받음예: ("the", [1,1,1,1])Output: .. 2025. 4. 9.