DBSCAN 클러스터링 알고리즘

기술노트
Admin (토론 | 기여)님의 2025년 4월 26일 (토) 12:25 판

미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다.

아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.

---

  1. DBSCAN 클러스터링 알고리즘

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.

데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.

---

    1. DBSCAN의 기본 개념

두 가지 기준을 사용해 군집을 만든다.

- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 - **MinPts**: 군집을 형성하기 위한 최소한의 점 개수

---

    1. DBSCAN의 세 가지 핵심 요소
      1. 1. Core Point (중심점)

한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 중심점(Core Point)으로 정한다.

- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.

      1. 2. Border Point (경계점)

반경 내의 점이 MinPts 미만이면 경계점(Border Point)으로 분류한다. 군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.

- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.

      1. 3. Noise Point (잡음점)

반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 잡음점(Noise Point)이다.

- 예: 반경 5m 내에 점이 없다면 잡음점이다.

---

    1. 시각적 예시
중심점(Core Point) 경계점(Border Point) 잡음점(Noise Point)
✅ 군집의 중심 🔸 군집의 경계 ❌ 군집 외부
주변에 점이 많음 주변에 점이 적음 주변에 점이 없음

- 파란색: 중심점(Core) - 노란색: 경계점(Border) - 빨간색: 잡음점(Noise)

---

    1. 간략한 정리

- 반경 내 점이 많음 → 중심점(Core) → 군집 형성 및 확장 - 반경 내 점이 적음 → 경계점(Border) → 군집의 끝 (확장되지 않음) - 반경 내 점이 없음 → 잡음점(Noise) → 군집 미포함

이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.

---

    1. DBSCAN의 장점

- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) - 다양한 형태의 군집 형성 가능 - 이상치(잡음점) 탐지에 강력

---

    1. DBSCAN의 단점

- 반경(Epsilon) 설정에 민감함

 - 너무 작으면 군집이 과도하게 나뉨
 - 너무 크면 군집이 뭉개짐

---

    1. 참고 자료

- DBSCAN 이해하기 - DBSCAN 예시

---

      1. 한 줄 요약

> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.