정형, 비정형, 반정형 데이터

기술노트

📄 정형, 비정형, 반정형 데이터

데이터는 그 구조의 형태와 처리 방식에 따라 정형', '비정형', '반정형 데이터로 분류됩니다. 빅데이터 시대에는 이 세 가지 형태의 데이터를 모두 효과적으로 처리하는 능력이 중요합니다.


🧱 정형 데이터 (Structured Data)

정형 데이터는 미리 정해진 구조(스키마)에 따라, 고정된 필드에 저장되는 데이터입니다. 행과 열로 구성된 테이블 형태로 표현되며, 데이터의 의미가 명확하고 처리하기 용이합니다.

  • 특징 : 구조가 명확하고, 데이터 처리가 용이함
  • 저장소 : 관계형 데이터베이스 (RDBMS)
  • 예시 : 고객 정보 테이블, 상품 목록, 재고 관리 데이터, 회계 장부

🌪️ 비정형 데이터 (Unstructured Data)

비정형 데이터는 정형 데이터와 반대로, 정해진 구조 없이 다양한 형태로 존재하는 데이터입니다. 오늘날 생성되는 데이터의 대부분(약 80% 이상)을 차지하며, 그 형태가 매우 다양하여 처리 및 분석이 어렵습니다.

  • 특징 : 구조가 없어 저장 및 처리가 복잡하지만, 가치 있는 인사이트를 많이 포함하고 있음
  • 저장소 : NoSQL 데이터베이스, 데이터 레이크
  • 예시 : 텍스트 문서, 이메일, 소셜 미디어 게시글, 이미지, 동영상, 음성 파일

🌗 반정형 데이터 (Semi-structured Data)

반정형 데이터는 정형 데이터처럼 고정된 스키마를 가지고 있지는 않지만, 데이터의 구조를 파악할 수 있는 메타데이터나 스키마 정보를 포함하고 있는 데이터입니다. 데이터 자체에 구조에 대한 설명이 포함되어 있어, 비정형 데이터보다는 처리하기가 용이합니다.

  • 특징 : 데이터의 구조를 유연하게 변경할 수 있음
  • 저장소 : NoSQL 데이터베이스
  • 예시 : XML, JSON, 웹 로그 파일

💡 기술사 핵심 Point

  • 과거의 데이터 분석은 주로 정형 데이터를 대상으로 했지만, 빅데이터 시대에는 비정형 데이터 속에 숨겨진 가치를 찾아내는 것이 핵심 경쟁력이 되었습니다.
  • 비정형 데이터를 분석하기 위해서는 자연어 처리(NLP), 이미지 인식, 음성 인식 등 고도의 인공지능 기술이 필요합니다.
  • 데이터 레이크는 이러한 모든 형태의 데이터를 원본 그대로 저장하여, 미래의 다양한 분석 요구에 대비할 수 있는 저장소 아키텍처입니다.