본문 바로가기
반응형

하둡10

[Hadoop] 하둡 Inverted Index 실습 가이드 (Fully Distributed 모드) Hadoop Inverted Index 실습이 글에서는 Hadoop Fully Distributed Mode 환경에서 Inverted Index를 만드는 실습을 진행합니다. Inverted Index는 검색 엔진에서 핵심적으로 사용되는 자료구조로, 각 단어가 어떤 문서에 등장했는지를 저장합니다. 이 실습에 앞서 HDFS가 구축이 돼야 합니다.https://konkukcodekat.tistory.com/252 [Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드)Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및.. 2025. 4. 14.
[Hadoop] 하둡 MapReduce 기본 실습 가이드 (Fully Distributed 모드) Hadoop MapReduce실습 - WordCount standalone 모드로 실습하는 법 (HDFS 사용X)https://konkukcodekat.tistory.com/251 [Hadoop] 하둡 설치 및 Standalone 모드로 wordCount 기본 예제 실습Hadoop 실습 환경 구성 (VM 기반)https://konkukcodekat.tistory.com/250 [Hadoop] 하둡 실습을 위한 VM 환경 세팅 (virtual box, VMware Fusion)Ubuntu 기반 하둡 실습 환경 구축: 네트워크 설정 가이드 하둡 실습을 위해선 Vkonkukcodekat.tistory.com Fully Distributed 모드로 실행하기 위해서는 HDFS 실행이 돼야한다.https://kon.. 2025. 4. 14.
[Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드) Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및 테스트에 적합core-site.xml, mapred-site.xml, hdfs-site.xml 등에 설정 없음 → 로컬 파일 시스템 사용Fully Distributed Mode여러 노드에 Hadoop 구성요소를 분산 설치하여 운영하는 방식대규모 데이터 처리 환경에 적합장점:고가용성: 일부 노드 장애 시에도 시스템 운영 가능확장성: 노드 추가로 시스템 확장 가능병렬 처리 효율: 분산 저장과 MapReduce 기반 동시 처리2. Hadoop 주요 모듈 구조HDFS (Hadoop Distribut.. 2025. 4. 14.
[Hadoop] 하둡 설치 및 MapReduce 기본 예제 실습 (Standalone 모드) Hadoop MapReduce Standalone mode - WordCount 실습 Hadoop 실습 환경 구성 (VM 기반)https://konkukcodekat.tistory.com/250 [Hadoop] 하둡 실습을 위한 VM 환경 세팅 (virtual box, VMware Fusion)Ubuntu 기반 하둡 실습 환경 구축: 네트워크 설정 가이드 하둡 실습을 위해선 VM(Ubuntu)의 네트워크 설정이 매우 중요하다.이 글에서는 cloud-init 비활성화, VM 네트워크 어댑터 설정, IP 수동 할당, 그konkukcodekat.tistory.com Hadoop이란?Hadoop은 대용량 데이터를 효율적으로 저장하고 처리할 수 있는 오픈소스 기반의 분산 처리 프레임워크이다. 단일 서버에서 수천 .. 2025. 4. 14.
[Hadoop] 하둡 실습을 위한 VM 환경 세팅 (virtual box, VMware Fusion) Ubuntu 기반 하둡 실습 환경 구축: 네트워크 설정 가이드 하둡 실습을 위해선 VM(Ubuntu)의 네트워크 설정이 매우 중요하다.이 글에서는 cloud-init 비활성화, VM 네트워크 어댑터 설정, IP 수동 할당, 그리고 VMware Fusion과 VirtualBox 각각에서 네트워크 구성법을 단계별로 안내한다. 하둡 실습을 하려면 VM을 '최소' 2개 만들어야 한다 (master, slave1) VM에 ubuntu 설치하는건 이글의 주제를 벗어나므로 ubuntu가 설치됐다고 가정하고 진행하겠다. master, slave VM을 각각 생성하고 아래 과정을 각 vm마다 수행해주면 된다Step 1. Cloud-init 비활성화Ubuntu의 cloud-init은 부팅 시 네트워크를 포함한 다양한 설정.. 2025. 4. 14.
[Hadoop] 하둡 MapReduce 1.0 아키텍처와 동작 원리와 MapReduce 2.0의 개선 구조 Hadoop 1.0에서 2.0으로의 진화: 구조, 한계, 그리고 개선 전략Hadoop은 대규모 데이터를 효율적으로 저장하고 처리할 수 있는 분산 시스템의 대표적인 오픈소스 프레임워크다. 그 중 Hadoop MapReduce 1.0은 단순하고 일관된 구조를 바탕으로 초기 빅데이터 생태계를 선도했지만, 대규모 클러스터 환경에서의 확장성과 안정성의 한계를 드러냈다.이 글에서는 먼저 Hadoop 1.0의 아키텍처와 내부 구성요소, 전체 동작 흐름을 세부적으로 살펴본다. 이후 1.0의 근본적인 약점을 어떻게 파악하고 해결하고자 했는지, 그리고 Hadoop 2.0(YARN 기반)으로의 전환이 어떤 배경에서 이루어졌는지를 구조적 비교와 전략적 전환 관점에서 분석한다. 이 글의 구성Hadoop 1.0 아키텍처 해부Jo.. 2025. 4. 9.
[Hadoop] 하둡 MapReduce 동작 원리 MapReduce 프로그래밍 모델 상세 설명하둡의 MapReduce 프로그래밍 모델은 대용량 데이터를 병렬 처리하기 위한 함수 기반 처리 구조를 따르며, 두 가지 핵심 함수로 구성된다.1. Map FunctionInput: (Key, Value) 형태로 입력을 받음예: (Line Number, 문장 내용)Output: List of (Key, Value) 형태로 출력예: "the quick brown fox" → ("the", 1), ("quick", 1), ("brown", 1), ("fox", 1) Map 함수는 주어진 데이터를 원하는 형태로 전처리하는 역할을 한다.2. Reduce FunctionInput: (Key, List) 형태로 입력을 받음예: ("the", [1,1,1,1])Output: .. 2025. 4. 9.