7 데이터 분석/분석기법1 - KDD(Knowledge Discovery in Database)

기술노트

KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 프로파일링 기술을 이용해서 데이터로부터 통계, 지식을 얻기 위한 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화의 구조를 가지고 있다. 여기서 프로파일링 기술이란? 범죄에서 증거들을 통해서 단서를 찾아내는 방법이다. 데이터 조각들을 분석해서 증거들을 찾고 범인을 유추한다. 데이터 파일 내의 데이터를 보다 보면 어떤 현상에 대해서 유추할 수 있는데서 비슷한 방법으로 생각할 수 있다.

과정 (그림) 1) Selection 비지니스 관점에서 서비스 관점에서 분석을 하려는 도메인 내에 주제를 선정하고, 분석 목표를 정하고, 어떤 데이터가 필요한지 식별하여 데이터를 구성하거나 선택한다. 데이터를데이터의 선택,

3) 2) Preprocessing 데이터를 모았는데, 그 데이터를 바로 사용할 수도 있지만, 데이터 내에 특히 로그 파일이나 비정형 데이터는 원치 않는 데이터들이 들어 있을 수 있어서 제거 해주거나 값을 대체 해준다. 이 과정을 전처리 과정이라고 한다.

3) Transformation 데이터 전처리 과정을 마치면 불필요한 데이터는 제거가 된 상태가 된다. 그런데, 이 데이터를 전체를 가지고 분석을 하려고 보면 데이터량 측면에서 너무 커서 분석이 잘 안될 수도 있고, 특별히 보고자 하는 요소가 아닐 수도 있다. 그리고 다른 차원으로 변경을 해서 봤을 때 분석의 의미가 더 있을 수도 있어서 그렇게 변경을 하는 과정이다. 데이터 마이닝에 필요한 항목과 차원으로 변경하는 부분이다. 이 때 Training Data와 검증용(Test) 데이터를 나눈다. 여기서 Training Data과 검증용 데이터란? Traing Data란 학습을 하고자 하는 데이터다. 특정 모델을 만들기 위해서 데이터를 훈련을 시킨다. 모델을 만든다는 것은 데이터 내에서 특정한 분석을 하거나 패턴을 찾는 과정이다. 이러한 훈련을 통해서 특정 패턴이라는 것이 도출이 되었을 때 검증용 데이터는 그 모델, 특정 패턴이 맞는지를 해보는 별도의 데이터이다. 훈련한 데이터로 해보면 당연히 맞을 테고, 별도 빼놓은 데이터로 테스트를 해보게 된다. 데이터의 90%는 훈련으로 10%정도는 검증용으로 나눠두는 정도로 하면 된다.

4) Data mining 데이터 마이닝이란 데이터에서 유의미한 정보를 뽑는 것이다. 광산에서 추출하는 과정으로 보면 된다. 이 때 기존 데이터 마이닝 알고리즘 중에 선택하여 적용하면 된다. 어떤 알고리즘을 선택할 지는 데이터 분석의 목적에 따라서 데이터의 형태에 따라서 다르게 선택하면 된다.

5) Interpretation / Evaluation 데이터 분석한 결과이다. 결과를 보고 다시 평가를 하게 된다. 이때 평가를 하였을 때 유의미한 결과가 나오지 않은 경우 또는 결과가 기대치에 못미치거나 목표한 바를 이루지 못하는 경우 4) 데이터 마이닝 과정을 반복한다. 이 때 기존 사용했던 알고리즘에 대한 검토 및 변수값들을 조정하면 데이터 분석을 계속 진행한다.

개발자, 기술사, 삼성, 외국계 IT기업 20년차 기술노트 알렉이 직접 작성한 IT기업 기술 면접을 위한 CS + 면접 노하우 PDF <https://kmong.com/self-marketing/539751/LUA54VnQsP> 자주 나오는 CS 질문과 답변 그리고 100번 이상 면접관으로 참여하면서 느꼈던 면접자가 알아야 할 팁 13가지 포함

백엔드 개발자를 위한 클라우드 강의, AWS <https://inf.run/o1NX>

이제는 비전공자도, 일반이도 개발할 수 있다. ChatGPT를 이용한 누구나 앱개발 with 알렉 <https://inf.run/rpX4>

백엔드 직접 번역한 도서 <https://www.yes24.com/Product/Goods/122536127>

IT기술의 거의 모든 것을 다루는 기술노트with알렉 유투브 <https://www.youtube.com/c/%EA%B8%B0%EC%88%A0%EB%85%B8%ED%8A%B8with%EC%95%8C%EB%A0%89>