본문 바로가기
반응형

hdfs4

[Hadoop] 하둡 Inverted Index 실습 가이드 (Fully Distributed 모드) Hadoop Inverted Index 실습이 글에서는 Hadoop Fully Distributed Mode 환경에서 Inverted Index를 만드는 실습을 진행합니다. Inverted Index는 검색 엔진에서 핵심적으로 사용되는 자료구조로, 각 단어가 어떤 문서에 등장했는지를 저장합니다. 이 실습에 앞서 HDFS가 구축이 돼야 합니다.https://konkukcodekat.tistory.com/252 [Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드)Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및.. 2025. 4. 14.
[Hadoop] 하둡 HDFS 실습 환경 설정 (Fully Distributed 모드) Hadoop Fully Distributed Mode + HDFS Setup 가이드1. Hadoop 실행 모드 소개Standalone Mode모든 프로세스를 단일 JVM에서 실행하며, HDFS를 사용하지 않음개발 및 테스트에 적합core-site.xml, mapred-site.xml, hdfs-site.xml 등에 설정 없음 → 로컬 파일 시스템 사용Fully Distributed Mode여러 노드에 Hadoop 구성요소를 분산 설치하여 운영하는 방식대규모 데이터 처리 환경에 적합장점:고가용성: 일부 노드 장애 시에도 시스템 운영 가능확장성: 노드 추가로 시스템 확장 가능병렬 처리 효율: 분산 저장과 MapReduce 기반 동시 처리2. Hadoop 주요 모듈 구조HDFS (Hadoop Distribut.. 2025. 4. 14.
Ceph의 소개와 HDFS와 차이 Ceph: 고확장성 오브젝트 기반 분산 파일 시스템Ceph는 오픈소스 객체 기반 분산 파일 시스템으로, 높은 확장성과 가용성, 유연성을 제공하며 다양한 형태의 스토리지 인터페이스(Block, File, Object)를 지원한다. 특히 클라우드 환경에서 VM 백엔드 저장소, 오브젝트 저장소 등으로 널리 활용된다.1. Ceph의 주요 특징Unified Storage: Block, File, Object 스토리지 지원Scalable: 수만~10만 개 노드까지 확장 가능 (엑사바이트 단위)Active-Active 구조: 모든 컴포넌트가 동시에 읽기/쓰기 처리 가능Self-healing: 장애 발생 시 자동 복구Open Source: GPL 기반, 다양한 상용 서비스에 활용 가능멀티 OS 지원: CentOS, U.. 2025. 4. 3.
HDFS(하둡 분산 파일 시스템) 구조 및 작동 방식 HDFS: Hadoop Distributed File SystemHDFS는 대용량 파일 저장 및 분산 처리에 최적화된 분산 파일 시스템이다. 다음과 같은 설계 철학을 기반으로 한다:설계 목적매우 큰 파일 저장: 수백 MB ~ 수 TB에 이르는 대규모 파일스트리밍 데이터 접근 패턴: Write-once, Read-many-times 방식일반 하드웨어(Commodity Hardware)에서 구동 가능HDFS의 제한 사항HDFS는 모든 유형의 워크로드에 적합하지 않다. 대표적인 제한 사항은 다음과 같다:낮은 지연시간 요구에 부적합: HDFS는 고처리량(Throughput)에 최적화되어 있으며, 실시간 처리에는 부적절하다.예: 실시간 쿼리 → HBase 추천작은 파일이 많은 경우 비효율:메타데이터를 NameNo.. 2025. 4. 3.