DBSCAN 클러스터링 알고리즘: 두 판 사이의 차이
편집 요약 없음 |
편집 요약 없음 |
||
1번째 줄: | 1번째 줄: | ||
미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다. | |||
아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다. | |||
--- | |||
#DBSCAN 클러스터링 알고리즘 | |||
'''DBSCAN''' (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다. | |||
데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다. | |||
--- | |||
##DBSCAN의 기본 개념 | |||
두 가지 기준을 사용해 군집을 만든다. | |||
== | - **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 | ||
- **MinPts**: 군집을 형성하기 위한 최소한의 점 개수 | |||
--- | |||
##DBSCAN의 세 가지 핵심 요소 | |||
###1. Core Point (중심점) | |||
한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 '''중심점(Core Point)'''으로 정한다. | |||
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다. | |||
###2. Border Point (경계점) | |||
반경 내의 점이 MinPts 미만이면 '''경계점(Border Point)'''으로 분류한다. | |||
군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다. | |||
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다. | |||
###3. Noise Point (잡음점) | |||
반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 '''잡음점(Noise Point)'''이다. | |||
- 예: 반경 5m 내에 점이 없다면 잡음점이다. | |||
--- | |||
##시각적 예시 | |||
{| class="wikitable" style="text-align:center" | |||
|- | |||
!중심점(Core Point)!!경계점(Border Point)!!잡음점(Noise Point) | |||
|- | |||
|✅ 군집의 중심||🔸 군집의 경계||❌ 군집 외부 | |||
|- | |||
|주변에 점이 많음||주변에 점이 적음||주변에 점이 없음 | |||
|} | |||
[[파일:https://t1.daumcdn.net/cfile/tistory/99CC563359E057BA25|300px|가운데]] | |||
- 파란색: '''중심점(Core)''' | |||
- 노란색: '''경계점(Border)''' | |||
- 빨간색: '''잡음점(Noise)''' | |||
--- | |||
##간략한 정리 | |||
- 반경 내 점이 많음 → '''중심점(Core)''' → 군집 형성 및 확장 | |||
- 반경 내 점이 적음 → '''경계점(Border)''' → 군집의 끝 (확장되지 않음) | |||
- 반경 내 점이 없음 → '''잡음점(Noise)''' → 군집 미포함 | |||
이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다. | |||
--- | |||
##DBSCAN의 장점 | |||
- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) | |||
- 다양한 형태의 군집 형성 가능 | |||
- 이상치(잡음점) 탐지에 강력 | |||
--- | |||
##DBSCAN의 단점 | |||
- 반경(Epsilon) 설정에 민감함 | |||
- 너무 작으면 군집이 과도하게 나뉨 | |||
- 너무 크면 군집이 뭉개짐 | |||
--- | |||
##참고 자료 | |||
- [https://bcho.tistory.com/1205?category=555440 DBSCAN 이해하기] | |||
- [https://practice2code.blogspot.com/2017/07/dbscan-clustering-algorithm.html DBSCAN 예시] | |||
--- | |||
###한 줄 요약 | |||
> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다. |
2025년 4월 26일 (토) 12:25 판
미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다.
아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.
---
- DBSCAN 클러스터링 알고리즘
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.
데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.
---
- DBSCAN의 기본 개념
두 가지 기준을 사용해 군집을 만든다.
- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 - **MinPts**: 군집을 형성하기 위한 최소한의 점 개수
---
- DBSCAN의 세 가지 핵심 요소
- 1. Core Point (중심점)
한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 중심점(Core Point)으로 정한다.
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.
- 2. Border Point (경계점)
반경 내의 점이 MinPts 미만이면 경계점(Border Point)으로 분류한다. 군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.
- 3. Noise Point (잡음점)
반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 잡음점(Noise Point)이다.
- 예: 반경 5m 내에 점이 없다면 잡음점이다.
---
- 시각적 예시
중심점(Core Point) | 경계점(Border Point) | 잡음점(Noise Point) |
---|---|---|
✅ 군집의 중심 | 🔸 군집의 경계 | ❌ 군집 외부 |
주변에 점이 많음 | 주변에 점이 적음 | 주변에 점이 없음 |
- 파란색: 중심점(Core) - 노란색: 경계점(Border) - 빨간색: 잡음점(Noise)
---
- 간략한 정리
- 반경 내 점이 많음 → 중심점(Core) → 군집 형성 및 확장 - 반경 내 점이 적음 → 경계점(Border) → 군집의 끝 (확장되지 않음) - 반경 내 점이 없음 → 잡음점(Noise) → 군집 미포함
이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.
---
- DBSCAN의 장점
- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) - 다양한 형태의 군집 형성 가능 - 이상치(잡음점) 탐지에 강력
---
- DBSCAN의 단점
- 반경(Epsilon) 설정에 민감함
- 너무 작으면 군집이 과도하게 나뉨 - 너무 크면 군집이 뭉개짐
---
- 참고 자료
- DBSCAN 이해하기 - DBSCAN 예시
---
- 한 줄 요약
> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.