카테고리 없음

빅데이터

윤돌_99 2021. 10. 27. 00:50

빅데이터의 3대 요소(3Vs)

- 크기(Volume): 일반적으로는 수십 테라바이트 혹은 수십 테라바이트 이상, 데이터 웨어하우스 같은 솔루셔넹서 소화하기 어려울 정도로 급격히 데이터 양이 증가 -> 확장 가능한 방식으로 데이터를 저장하고, 분석하는 분산 컴퓨팅 기법으로 접근 필요

- 속도(Velocity): 실시간 처리(오늘날 디지털 데이터는 매우 빠른 속도로 생성, 데이터의 생산, 저장, 유통, 수집, 분석의 시릿간 처리가 중요), 장기적인 접근

- 다양성(Variety): 정형(고정된 필드에 저장되는 데이터), 반정형(고정된 필드로 저장되어 있지는 않지만, xml, html, json과 같이 메타데이터나 스키마 등을 포함하는 데이터), 비정형(고정된 필드에 저장되어 있지 않은 데이터 

 

Concepts of Cloud Computing

- IaaS(Infrastructure-as-a-Service): 서버/스토리지,네트워크 등의 H/W 자원을 필요에 따라서 사용할 수 있게 제공하는 형태 (ex: AWS EC2, AWS S3)(IT departments use)

- PaaS(Platform-as-a-Service): 서비스를 개발할 수 있는 안정적인 환경과 응용프로그램을 개발할 수 있는 API까지 제공하는 형태 (Windows Azure, SQL Azure, .NET)(developers use)

- SaaS(Software-as-a-Service): 클라우드에서 동작하는 응용프로그램을 서비스 형태로 제공하는 형태(Google Apps, Office 365)(YOU use)

 

Hadoop

대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크

분산 파일 시스템인 HDFS(Hadoop Distirbuted File System)에 데이터를 저장하고, 분산 처리 시스템인 맵리듀스를 이용하여 데이터를 처리

 

하둡의 장점

- 오픈소스 프로젝트이므로 SW License 비용에 대한 부담이 적다.

- Commodity Hardware (X86 COU + Linux)를 활용

- Scale-ost 아키텍쳐

- 데이터 유실이나 장애 복구 가능(데이터 복제)

- 여러 대의 서버에 데이터를 분산 저장하고, 데이터가 저장된 각 서버에서 동시에 데이터를 처리(Data Locality)

 

하둡은 RDBMS와 상호보완적인 특성을 가짐

- ETL(Extraction, Transformation, Loading) 과정의 효율적인 구현: RDBMS, 로그 파일 등 다양한 데이터 소스로부터 필요한 데이터를 추출(Extraction)하고, 변환(Trnsformation)한 후 DW(Data Warehouse) 혹은 DM(Data Mart)에 전송과 로딩(Loading)하는 과정을 수행 -> 신속한 데이터 처리, 즉 트랜잭션이 매우 중요한 데이터를 처리하는데 부적합

 

하둡은 NoSQL

- 하둡 플랫폼 구성 요소 중의 하나인 HBase를 통해 NoSQL 기능 제공

 

- NoSQL(Not-only-SQL): RDBMS가 분산 환경에 적합하지 않음

Key-Value Pair로 구성, Index와  Data가 분리되어 별도로 운영,

조인(Join)이 없고, RDBMS에서는 여러 Row로 존재하던 데이터들을 하나의 집합된 형태로 저장

Sharding이라는 기능이 있어서 데이터를 분할해서 다른 서버에 나누어 저장

RDBMS처럼 완벽한 데이터 무결성과 정합성을 제공하지 않음

예) MongoDB, Hbase, CouchDB, Cassandra, Redis

 

- 고가용성 지원(HA:High Avilability) 지원: 고가용성(HA)은 99.999% 상태의 가용을 의미, 1년 중에 30분 정도를 제외하고 서비스가 가능한 수치, Name Node(HDFS)의 중앙집중적인 메타데이터 관리

 

- 파일 NameSpace 제한: Name Node가 관리하는 메타데이터는 메모리로 관리 -> 메모리 용량에 따라 HDFS에 저장되는 파일과 디렉토리 개수 제한

 

- 데이터 수정 불가: 한번 저장한 파일은 수정 불가, 파일의 이동이나 이름 변경은 가능, 저장된 파일의 내용을 수정할 수 없음. 파일 읽기나 배치 작업만이 하둡에 적합, 기존에 저장된 파일에 내용을 Append 하는 기능을 제공

 

- POSIX 명령어 미지원: 기전 파일 시스템에서 사용하던 rm, mv 등과 같은 POSIX 형식의 파일 명령어 사용 불가. 하둡에서 제공하는 별도의 Shell Command/API 활용