7 데이터 분석/분석기법2 - CRISP-DM 분석 방법론
CRISP-DM 분석 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT 프로젝트로 시작, 5개 업체(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA) 구성, 계층적 프로세스 모델 4개 레벨, 6가지 단계로 구성
4가지 레벨 Phases 최상위 레벨로 여러 개의 단계로 구성. Generic Tasks 단계들을 일반화한 태스크로 구분 Specialized Tasks 테스트를 구체적인 전문화된 테스크로 구분 Process Instances 데이터 마이닝을 위한 구체적인 실행
CRISP-DM 6개 프로세스 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
1) 업무 이해 : Business Understanding, 비지니스에 대한 이해가 필요함. 도메인을 알아야 함. 도메인 관점, 비지니스 관점에서 데이터를 분석하기 위한 문제의 시작. 정의가 필요함. : 업무 목적 파악, 상황 파악, 데이터 분석 목표 설정, 프로젝트 계획 수립
2) 데이터 이해 : Data Understanding, 분석을 위해서 데이터를 수집하고, 데이터의 속성을 이해하고 데이터의 품질등을 확인함. : 데이터 수집, 탐색, 품질 확인 데이터의 품질이란? 분석하고자 하는 목표를 이룰만한 데이터 양이 충분하면서도 그 내용에 잘 정리 또는 적재 되어 있는지. 적재된 데이터들의 내용이 부실하진 않은지. 너무 분산된 것은 아닌지 등
3) 데이터 준비 : Data Preparation, 데이터를 준비하는 과정으로 로 데이터를 적당하게 정리하여 분석에 알맞게끔 준비하는 과정
- 분석용 데이터 셋, 데이터 정제, 데이터 정리
4) 모델링 : Modeling, 모델링 기법과 알고리즘을 선정하거나 적용해보는 단계로 모델링 방법은 여러가지고 있고, 모델링을 적용하고도 파라미터등을 조절해 가면서 최적화를 해야함. 모델의 과적합(Over-fitting) 문제도 해결 모델링의 과적합이란? 너무 과하게 적합하다는 의미로, 변수들을 딱 분석과정의 데이터에 맞춰놓거나 또 영향을 미칠만한 변수들을 과하게 설정하여 이후 테스트 데이터로는 정확도가 떨어지도록 된 상태이다. 이때 변수를 제외하거나 설정값을 조금 유연하게 조절하는게 방법이다. : 모델 선택, 모델 테스트 계획, 기대값 작성
5) 평가: 테스트 데이터로 모델링을 통해서 테스트를 해보고 기대치에 맞게 결과가 나오는지 보는 과정이다. : 분석 결과, 모델링 과정 평가
6) 전개 : 모데링이이 어느 정도 정확도 있게 나오게 되면 실제 전개를 해보고 향후 계획을 세워서 관리를 한다. 데이터의 변화라든가 모델링 변경 필요 시 어떻게 할 것인지에 대해서 가이드한다. : 전개 계획 수립, 유지보수 계획 수립
개발자, 기술사, 삼성, 외국계 IT기업 20년차 기술노트 알렉이 직접 작성한 IT기업 기술 면접을 위한 CS + 면접 노하우 PDF <https://kmong.com/self-marketing/539751/LUA54VnQsP> 자주 나오는 CS 질문과 답변 그리고 100번 이상 면접관으로 참여하면서 느꼈던 면접자가 알아야 할 팁 13가지 포함
백엔드 개발자를 위한 클라우드 강의, AWS <https://inf.run/o1NX>
이제는 비전공자도, 일반이도 개발할 수 있다. ChatGPT를 이용한 누구나 앱개발 with 알렉 <https://inf.run/rpX4>
백엔드 직접 번역한 도서 <https://www.yes24.com/Product/Goods/122536127>
IT기술의 거의 모든 것을 다루는 기술노트with알렉 유투브 <https://www.youtube.com/c/%EA%B8%B0%EC%88%A0%EB%85%B8%ED%8A%B8with%EC%95%8C%EB%A0%89>