본문 바로가기
컴퓨터 일반/IT용어

빅 데이터(Big Data)

by 건티 2021. 6. 17.
728x90

기존의 관리 방법이나 분석 체계로는 처리하기 어려운 방대한 양의 정형, 반정형, 비정형 데이터 집합. 또는 이러한 데이터 집합을 수집, 저장, 관리, 분석, 시각화하는 정보통신 기술 분야.

빅데이터에서 데이터는 컴퓨터 및 디바이스를 통해 생성되거나 저장된 정보를 의미한다. 빅데이터는 폭발적으로 증가하고(Volume), 시간에 따라 빠른 속도로 변화하며(Velocity), 포맷과 형식이 다양(Variety)하다는 특징이 있다. 

일반적으로 데이터는 구조에 따라 데이터베이스에 테이블 형태로 저장되는 정형 데이터(structured data), 확장성 마크업 언어(XML: eXtensible Markup Language)와 같이 데이터의 구조를 포함하여 파일로 저장하는 반정형 데이터(semi-structured data), 텍스트, 그림 또는 사진과 같이 전혀 구조화되지 않은 비정형 데이터(unstructured data)로 분류한다. 빅데이터를 효과적으로 분석하고 처리하면 미래를 예측하거나, 의사 결정에 활용하여 새로운 가치를 창출할 수 있지만 반면에 입력 데이터에 대한 의존성이 매우 높아 부정확하거나 편형적인 데이터를 사용할 경우 처리한 결과의 품질을 보장하기 어렵다. 

* 관련 표준 
- ITU-T Y.3600 (Big data ? Cloud computing based requirements and capabilities(클라우드 컴퓨팅 기반 요구사항 및 기능)(11/2015))

 

 

1. 정형 데이터(structured data, 구조적 데이터 )

미리 정해 놓은 형식과 구조에 따라 저장되도록 구성된 데이터.

 

정형 데이터를 위해 미리 정해 놓은 형식과 구조는 사용자가 쉽게 이해하고 시스템에 쉽게 적용할 수 있도록 잘 알려진 포맷이나 명확한 데이터 구조 표현 방법을 사용해야 한다.


정형 데이터(structured data)의 대표적인 예는 관계형 데이터베이스(RDB: Relational Database)의 테이블과 같이 고정된 컬럼에 저장되는 데이터, 지정된 행과 열로 데이터의 속성이 정해져 있는 프레드시트(spreadsheet) 데이터, 콤마로 구조가 결정되는 시에스브이(CSV) 데이터 등이 있다. 정형 데이터는 반정형, 비정형 데이터와는 달리 정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용된다.

 

* 관련 표준 
- ISO/IEC 20546 (Information technology – Big data – Overview and vocabulary(02/2019))

 

 

2. 반정형 데이터(semi-structured data)

데이터의 형식과 구조가 변경될 수 있는 데이터로 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터.


대표적인 반정형 데이터 구조는 하이퍼텍스트 마크업 언어(html: HyperText Markup Language), 확장성 마크업 언어(XML: eXtensible Markup Language), 자원 기술 프레임워크(RDF: Resource Description Framework), 제이슨(JSON: JavaScript Object Notation) 등이 있다.

 

반정형 데이터는 정형 데이터처럼 테이블(table)의 행(row)과 열(column)로 구조화되어 있지는 않으나, 파일에 포함된 데이터 구조 정보를 바탕으로 테이블 형태의 데이터 스키마(data schema)로 변환하고 데이터를 매핑(mapping)하여 정형 데이터로 변환할 수 있다. 특히 JSON 데이터는 시에스브이(CSV) 또는 테이블 형태로 쉽게 변환된다.반정형 데이터는 스키마(데이터 개체, 속성, 관계와 이들에 대한 제약 조건들에 대한 정보) 수정이 쉽고 파일 단위로 구성되어 전송과 공유가 용이하다. 그러나 정형 데이터와 비교하여 질의 처리(query processing)가 어려워 데이터 분석에 사용할 경우 정형 데이터로 변환하여 사용한다. RDF 데이터는 주로 파일로 저장하며 그래프 데이터베이스(graph database)를 이용하여 변환하기도 한다. 데이터의 순서 및 배열 등으로 이루어진 로그 데이터(log data), 센싱 데이터(sensing data) 등 데이터의 형식과 구조가 제공되는 데이터는 형식과 구조의 저장 형태에 따라 정형 데이터 또는 반정형 데이터 형태로 처리할 수도 있다.

 

* 관련 표준
- ISO/IEC 20546 (Information technology – Big data – Overview and vocabulary(02/2019))

 

 

 

3. 비정형 데이터(unstructured data)

정의된 구조가 없이 정형화되지 않은 데이터.


대표적인 비정형 데이터에는 동영상 파일, 오디오 파일, 사진, 보고서(문서), 메일 본문 등이 있다. 비정형 데이터는 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리(query processing)를 할 수 없다. 따라서 데이터의 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리(preprocessing)가 필요하다. 데이터 분석 또는 인공지능 모델의 개발 목적과 입력 데이터의 종류에 따라 매우 다양한 방법의 전처리를 사용한다. 텍스트 형태의 데이터는 전처리를 위해 자연어 처리(Natural Language Processing) 기법을 주로 사용한다. 동영상, 오디오, 사진 등 미디어 파일은 필터를 이용하여 노이즈(noise)를 제거하거나 데이터 범위를 변환하는 방법으로 전처리하며, 주로 기계 학습(ML: Machine Learning)을 위한 입력 데이터로 활용한다. 비정형 데이터는 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지하고 있으며, 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상들을 반영하고 있기 때문에 마케팅, 비즈니스 인텔리전스(BI) 등의 분야에서 매우 중요하다.


* 관련 표준 
- ISO/IEC 20546 (Information technology – Big data – Overview and vocabulary(02/2019))

 

 

 

출처]

한국정보통신기술협회 : 빅 데이터

한국정보통신기술협회 : 정형 데이터

한국정보통신기술협회 : 반정형 데이터

한국정보통신기술협회 : 비정형 데이터

 

※ 대한민국의 아름다운 영토 독도

 

 

반응형

'컴퓨터 일반 > IT용어' 카테고리의 다른 글

웹 2.0(Web 2.0)  (0) 2021.06.19
머신러닝( Machine Learning, ML )  (0) 2021.06.18
인공지능(Artificial Intelligence, AI)  (0) 2021.06.16
메타버스(Metaverse)  (0) 2021.06.15
아날로그와 디지털 그리고 디지로그  (0) 2021.06.14

댓글