DBSCAN 클러스터링 알고리즘: 두 판 사이의 차이

기술노트
편집 요약 없음
편집 요약 없음
5번째 줄: 5번째 줄:
---
---


#DBSCAN 클러스터링 알고리즘
# DBSCAN 클러스터링 알고리즘


'''DBSCAN''' (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.
'''DBSCAN''' (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.
13번째 줄: 13번째 줄:
---
---


##DBSCAN의 기본 개념
## DBSCAN의 기본 개념


두 가지 기준을 사용해 군집을 만든다.
두 가지 기준을 사용해 군집을 만든다.
22번째 줄: 22번째 줄:
---
---


##DBSCAN의 세 가지 핵심 요소
## DBSCAN의 세 가지 핵심 요소


###1. Core Point (중심점)
### 1. Core Point (중심점)


한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 '''중심점(Core Point)'''으로 정한다.
한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 '''중심점(Core Point)'''으로 정한다.
30번째 줄: 30번째 줄:
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.


###2. Border Point (경계점)
### 2. Border Point (경계점)


반경 내의 점이 MinPts 미만이면 '''경계점(Border Point)'''으로 분류한다.   
반경 내의 점이 MinPts 미만이면 '''경계점(Border Point)'''으로 분류한다.   
37번째 줄: 37번째 줄:
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.


###3. Noise Point (잡음점)
### 3. Noise Point (잡음점)


반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 '''잡음점(Noise Point)'''이다.
반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 '''잡음점(Noise Point)'''이다.
45번째 줄: 45번째 줄:
---
---


##시각적 예시
## 시각적 예시


{| class="wikitable" style="text-align:center"
{| class="wikitable" style="text-align:center"
|-
|-
!중심점(Core Point)!!경계점(Border Point)!!잡음점(Noise Point)
! 중심점(Core Point) !! 경계점(Border Point) !! 잡음점(Noise Point)
|-
|-
|✅ 군집의 중심||🔸 군집의 경계||❌ 군집 외부
| ✅ 군집의 중심 || 🔸 군집의 경계 || ❌ 군집 외부
|-
|-
|주변에 점이 많음||주변에 점이 적음||주변에 점이 없음
| 주변에 점이 많음 || 주변에 점이 적음 || 주변에 점이 없음
|}
|}


64번째 줄: 64번째 줄:
---
---


##간략한 정리
## 간략한 정리


- 반경 내 점이 많음 → '''중심점(Core)''' → 군집 형성 및 확장
- 반경 내 점이 많음 → '''중심점(Core)''' → 군집 형성 및 확장
74번째 줄: 74번째 줄:
---
---


##DBSCAN의 장점
## DBSCAN의 장점


- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집)
- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집)
82번째 줄: 82번째 줄:
---
---


##DBSCAN의 단점
## DBSCAN의 단점


- 반경(Epsilon) 설정에 민감함
- 반경(Epsilon) 설정에 민감함
90번째 줄: 90번째 줄:
---
---


##참고 자료
## 참고 자료


- [https://bcho.tistory.com/1205?category=555440 DBSCAN 이해하기]
- [https://bcho.tistory.com/1205?category=555440 DBSCAN 이해하기]
97번째 줄: 97번째 줄:
---
---


###한 줄 요약
### 한 줄 요약


> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.
> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.

2025년 4월 26일 (토) 12:25 판

미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다.

아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.

---

  1. DBSCAN 클러스터링 알고리즘

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.

데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.

---

    1. DBSCAN의 기본 개념

두 가지 기준을 사용해 군집을 만든다.

- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 - **MinPts**: 군집을 형성하기 위한 최소한의 점 개수

---

    1. DBSCAN의 세 가지 핵심 요소
      1. 1. Core Point (중심점)

한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 중심점(Core Point)으로 정한다.

- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.

      1. 2. Border Point (경계점)

반경 내의 점이 MinPts 미만이면 경계점(Border Point)으로 분류한다. 군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.

- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.

      1. 3. Noise Point (잡음점)

반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 잡음점(Noise Point)이다.

- 예: 반경 5m 내에 점이 없다면 잡음점이다.

---

    1. 시각적 예시
중심점(Core Point) 경계점(Border Point) 잡음점(Noise Point)
✅ 군집의 중심 🔸 군집의 경계 ❌ 군집 외부
주변에 점이 많음 주변에 점이 적음 주변에 점이 없음

- 파란색: 중심점(Core) - 노란색: 경계점(Border) - 빨간색: 잡음점(Noise)

---

    1. 간략한 정리

- 반경 내 점이 많음 → 중심점(Core) → 군집 형성 및 확장 - 반경 내 점이 적음 → 경계점(Border) → 군집의 끝 (확장되지 않음) - 반경 내 점이 없음 → 잡음점(Noise) → 군집 미포함

이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.

---

    1. DBSCAN의 장점

- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) - 다양한 형태의 군집 형성 가능 - 이상치(잡음점) 탐지에 강력

---

    1. DBSCAN의 단점

- 반경(Epsilon) 설정에 민감함

 - 너무 작으면 군집이 과도하게 나뉨
 - 너무 크면 군집이 뭉개짐

---

    1. 참고 자료

- DBSCAN 이해하기 - DBSCAN 예시

---

      1. 한 줄 요약

> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.