DBSCAN 클러스터링 알고리즘: 두 판 사이의 차이

기술노트
편집 요약 없음
편집 요약 없음
1번째 줄: 1번째 줄:
= 📌 '''DBSCAN 클러스터링이란?''' =
미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다. 


== 🔍 '''DBSCAN은 어떻게 동작할까?''' ==
아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.


=== ① '''Core Point (중심점)''' ===
---


=== ② '''Border Point (경계점)''' ===
#DBSCAN 클러스터링 알고리즘


=== ③ '''Noise Point (잡음점)''' ===
'''DBSCAN''' (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.


=== 예시 그림으로 보기 ===
데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.


== 📝 '''간단한 정리''' ==
---


== 🚩 '''DBSCAN의 좋은 점''' ==
##DBSCAN의 기본 개념


== ⚠️ '''DBSCAN의 주의점''' ==
두 가지 기준을 사용해 군집을 만든다.


=== 📚 '''이해를 돕는 추가 자료''' ===
- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경
- **MinPts**: 군집을 형성하기 위한 최소한의 점 개수
 
---
 
##DBSCAN의 세 가지 핵심 요소
 
###1. Core Point (중심점)
 
한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 '''중심점(Core Point)'''으로 정한다.
 
- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.
 
###2. Border Point (경계점)
 
반경 내의 점이 MinPts 미만이면 '''경계점(Border Point)'''으로 분류한다. 
군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.
 
- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.
 
###3. Noise Point (잡음점)
 
반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 '''잡음점(Noise Point)'''이다.
 
- 예: 반경 5m 내에 점이 없다면 잡음점이다.
 
---
 
##시각적 예시
 
{| class="wikitable" style="text-align:center"
|-
!중심점(Core Point)!!경계점(Border Point)!!잡음점(Noise Point)
|-
|✅ 군집의 중심||🔸 군집의 경계||❌ 군집 외부
|-
|주변에 점이 많음||주변에 점이 적음||주변에 점이 없음
|}
 
[[파일:https://t1.daumcdn.net/cfile/tistory/99CC563359E057BA25|300px|가운데]]
 
- 파란색: '''중심점(Core)'''
- 노란색: '''경계점(Border)'''
- 빨간색: '''잡음점(Noise)'''
 
---
 
##간략한 정리
 
- 반경 내 점이 많음 → '''중심점(Core)''' → 군집 형성 및 확장
- 반경 내 점이 적음 → '''경계점(Border)''' → 군집의 끝 (확장되지 않음)
- 반경 내 점이 없음 → '''잡음점(Noise)''' → 군집 미포함
 
이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.
 
---
 
##DBSCAN의 장점
 
- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집)
- 다양한 형태의 군집 형성 가능
- 이상치(잡음점) 탐지에 강력
 
---
 
##DBSCAN의 단점
 
- 반경(Epsilon) 설정에 민감함
  - 너무 작으면 군집이 과도하게 나뉨
  - 너무 크면 군집이 뭉개짐
 
---
 
##참고 자료
 
- [https://bcho.tistory.com/1205?category=555440 DBSCAN 이해하기]
- [https://practice2code.blogspot.com/2017/07/dbscan-clustering-algorithm.html DBSCAN 예시]
 
---
 
###한 줄 요약
 
> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.

2025년 4월 26일 (토) 12:25 판

미디어위키(MediaWiki)에서 바로 사용하실 수 있도록 **Markdown 문법**으로 깔끔하게 정리했습니다.

아래 내용을 그대로 복사해서 미디어위키에 붙여 넣으시면 됩니다.

---

  1. DBSCAN 클러스터링 알고리즘

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집된 정도(밀도)에 따라 군집(클러스터)을 나누는 알고리즘이다.

데이터를 쉽게 해석하자면, 사람들이 많이 모여있는 곳을 한 무리(군집)로 판단하는 방식이다.

---

    1. DBSCAN의 기본 개념

두 가지 기준을 사용해 군집을 만든다.

- **Epsilon(ε)**: 한 점 주변을 확인할 때의 반경 - **MinPts**: 군집을 형성하기 위한 최소한의 점 개수

---

    1. DBSCAN의 세 가지 핵심 요소
      1. 1. Core Point (중심점)

한 점을 중심으로 Epsilon 반경 안에 MinPts 이상의 점이 있으면 중심점(Core Point)으로 정한다.

- 예: 반경 5m 내에 4명 이상 존재하면 중심점이다.

      1. 2. Border Point (경계점)

반경 내의 점이 MinPts 미만이면 경계점(Border Point)으로 분류한다. 군집의 경계 부분에 있으며, 스스로 군집을 생성하지 못하는 점이다.

- 예: 반경 5m 내에 3명 이하만 있다면 경계점이다.

      1. 3. Noise Point (잡음점)

반경 내에 점이 없거나, 군집에서 떨어져 어디에도 속하지 못한 점은 잡음점(Noise Point)이다.

- 예: 반경 5m 내에 점이 없다면 잡음점이다.

---

    1. 시각적 예시
중심점(Core Point) 경계점(Border Point) 잡음점(Noise Point)
✅ 군집의 중심 🔸 군집의 경계 ❌ 군집 외부
주변에 점이 많음 주변에 점이 적음 주변에 점이 없음

- 파란색: 중심점(Core) - 노란색: 경계점(Border) - 빨간색: 잡음점(Noise)

---

    1. 간략한 정리

- 반경 내 점이 많음 → 중심점(Core) → 군집 형성 및 확장 - 반경 내 점이 적음 → 경계점(Border) → 군집의 끝 (확장되지 않음) - 반경 내 점이 없음 → 잡음점(Noise) → 군집 미포함

이러한 방식으로 데이터가 밀집된 곳을 중심으로 클러스터가 형성된다.

---

    1. DBSCAN의 장점

- 클러스터 개수를 미리 설정하지 않아도 됨 (자동 군집) - 다양한 형태의 군집 형성 가능 - 이상치(잡음점) 탐지에 강력

---

    1. DBSCAN의 단점

- 반경(Epsilon) 설정에 민감함

 - 너무 작으면 군집이 과도하게 나뉨
 - 너무 크면 군집이 뭉개짐

---

    1. 참고 자료

- DBSCAN 이해하기 - DBSCAN 예시

---

      1. 한 줄 요약

> DBSCAN은 데이터가 밀집된 부분을 찾아 군집을 형성하는 알고리즘이다.