DBSCAN 클러스터링 알고리즘
미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다.
아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.
---
- DBSCAN 클러스터링 알고리즘
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.
데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.
---
- DBSCAN의 기본 개념
두 가지 기준을 사용해 군집을 만든다.
- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 - **MinPts**: 군집을 형성하기 위한 최소한의 점 개수
---
- DBSCAN의 세 가지 핵심 요소
- 1. Core Point (중심점)
한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 중심점(Core Point)으로 정한다.
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.
- 2. Border Point (경계점)
반경 내의 점이 MinPts 미만이면 경계점(Border Point)으로 분류한다. 군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.
- 3. Noise Point (잡음점)
반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 잡음점(Noise Point)이다.
- 예: 반경 5m 내에 점이 없다면 잡음점이다.
---
- 시각적 예시
중심점(Core Point) | 경계점(Border Point) | 잡음점(Noise Point) |
---|---|---|
✅ 군집의 중심 | 🔸 군집의 경계 | ❌ 군집 외부 |
주변에 점이 많음 | 주변에 점이 적음 | 주변에 점이 없음 |
- 파란색: 중심점(Core) - 노란색: 경계점(Border) - 빨간색: 잡음점(Noise)
---
- 간략한 정리
- 반경 내 점이 많음 → 중심점(Core) → 군집 형성 및 확장 - 반경 내 점이 적음 → 경계점(Border) → 군집의 끝 (확장되지 않음) - 반경 내 점이 없음 → 잡음점(Noise) → 군집 미포함
이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.
---
- DBSCAN의 장점
- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) - 다양한 형태의 군집 형성 가능 - 이상치(잡음점) 탐지에 강력
---
- DBSCAN의 단점
- 반경(Epsilon) 설정에 민감함
- 너무 작으면 군집이 과도하게 나뉨 - 너무 크면 군집이 뭉개짐
---
- 참고 자료
- DBSCAN 이해하기 - DBSCAN 예시
---
- 한 줄 요약
> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.