🍌ADSP
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 데이터마이닝
김말자
2022. 5. 19. 14:01
728x90
728x90
BIG
데이터마이닝
대용량데이터에서 의미있는 패턴을 파악하거나 예측해 의사결정에 활용
지도학습 | 비지도학습 |
의사결정나무 인공신경망 일반화 선형모형 회귀분석 로지스틱회귀분석 |
olap 연관성 군집분석 som |
데이터마이닝
목적설정 - 데이터준비 - 가공 - 기법적용 - 검증
성과분석
오분류표
실sen예pre
정분류율(accuacy) = 맞춘것분에 전부
오분류율(error rate) = 틀린것분에 전부
특이도(specificity) = 네거티브틀린것중에 / 실제 네거티브값(실제값)
민감도(sensitivity) = 파지티브맞은것중에 / 실제 파지티브값(실제값)
정확도(precision) = 파지티브 맞은것중에 / 예측 파지티브 값
재현율(recall) = 파즈티브맞은것중에 / 진짜맞은거 민감도랑 같음
f1 = 2* 정확도*재현율/(정확도+재현율)
roc curve 민감도와 특이도로 구하는 곡선
1,0이 제일 좋은 값임
이익도표(lift chart)
랜덤 모델과 비교하여 해당모델의 성과가 얼마나 향상되었는지 등급별로 파악하는 그래프 (향상도곡성)
향상도차트와 커프 구분할 것
해당등급에 따라 계산된 이익값을 누적으로 연결할 도표
Frequency of = 빈도수
% Captured Response :반응검출율 실제/전체
% response : 반응률
lift 향상도
좋은모델이라면 lift가 빠른속도로 감소해야함
728x90
반응형
BIG