🍌ADSP

[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 데이터마이닝

김말자 2022. 5. 19. 14:01
728x90
728x90
BIG

데이터마이닝

대용량데이터에서 의미있는 패턴을 파악하거나 예측해 의사결정에 활용

 

지도학습 비지도학습
의사결정나무
인공신경망
일반화 선형모형
회귀분석
로지스틱회귀분석
olap
연관성
군집분석
som

 

데이터마이닝

목적설정 - 데이터준비 - 가공 - 기법적용 - 검증

 

성과분석

오분류표

실sen예pre

 

정분류율(accuacy) =  맞춘것분에 전부

오분류율(error rate) = 틀린것분에 전부

특이도(specificity) = 네거티브틀린것중에 / 실제 네거티브값(실제값)

민감도(sensitivity) = 파지티브맞은것중에 / 실제 파지티브값(실제값)

정확도(precision) = 파지티브 맞은것중에 / 예측 파지티브 값

재현율(recall) = 파즈티브맞은것중에 / 진짜맞은거 민감도랑 같음

f1 = 2* 정확도*재현율/(정확도+재현율)

 

roc curve  민감도와 특이도로 구하는 곡선

1,0이 제일 좋은 값임

 

이익도표(lift chart)

랜덤 모델과 비교하여 해당모델의 성과가 얼마나 향상되었는지 등급별로 파악하는 그래프 (향상도곡성)

향상도차트와 커프 구분할 것

해당등급에 따라 계산된 이익값을 누적으로 연결할 도표

 

Frequency of =  빈도수

% Captured Response :반응검출율 실제/전체

% response : 반응률

lift 향상도

좋은모델이라면 lift가 빠른속도로 감소해야함

 

 

728x90
반응형
BIG