728x90
728x90
BIG
이상값은 의도하지 않게 잘못입력하거나, 의도하지않게 입력되거나, 분석목적에 부학하지 않은경우, 불량인경우
분석에서 어떻게 전처리를 할지 결정할 때나 부정사용방지 시스템에서 규칙을 발견하는 데 사용
이상값은 상자그림으로 판별
인식방법 ESD - 평균으로부터 3표준편차 떨어진값
trimming 10%절단(상위5퍼하위5퍼절단)
boxplot
y = rmorm -> 난수 갯수
outlier 평균과 가장 차이가 많이 나는 값
변수구간화방법
binning = 신용평가모형의 개발에서 연속형 변수를 범주형 변수로 구간화할때
의사결정나무 = 연속형변수가 반복적으로 선택할 경우
데이터EDA(탐색적 자료분석)
summary()
728x90
반응형
BIG
'🍌ADSP' 카테고리의 다른 글
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 기초 통계분석(히스토그램,인과관계,피어슨,스피어만상관계수) (0) | 2022.05.19 |
---|---|
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 /통계분석(통계,표본조사,모수검정,비모수검정,측정방법등) (0) | 2022.05.19 |
[ADSP 데이터분석준전문가자격증]3과목 데이터 마트 / R reshape, SQLDF, PLYR, 데이터테이블 (0) | 2022.05.19 |
[ADSP 데이터분석준전문가자격증]2과목 데이터분석기획/분석마스터플랜 (0) | 2022.05.18 |
[ADSP 데이터분석준전문가자격증]2과목 데이터 분석 기획 / 분석프로젝트 관리방안 (0) | 2022.05.18 |
댓글