본문 바로가기
728x90
320x100
SMALL
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 연관분석(if-then) 연관분석 항목들간에 조건결과식 장바구니분석 흔히 장바구니분석,서열분석이라고도 함 장바구니에 무엇이 같이 들어잇는지에 대한 분석 a를 산후 b를 삼 if a then b 만일 a가 일어나면 b가 일어난다 측도 지지도 ab교집합/전체 신뢰도 AB교집합/A로 나눠준값 향상도 AB교집합/A거래수*B거래수 연관석분석 동향 Apriori 알고리즘 - 발생빈도 기반/ 최소지지도이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관규칙계산 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 군집분석 군집분석 유사성을 측정해서 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석방법임 계층적 군집 최단연결법 평균연결법 완전연결법 중심연결법 와드연결법 분리형 다이아나방법 분할적군집 프로토타입 - k중심, k평균,k중앙값,k메도이드,퍼지군집 분포기반 - 혼합분포군집 밀도기반 - 중심밀도군집, 밀도기반 거리 연속형 변수의 경우 유클리디안 거리 - 데이터간 유사성을 측정할 때 많이 사용하는 거리 표준화거리 - 해당변수의 표준편차로 척도 변환후 유클리드안 거리를 계산하는 방법 마할라노비스거리 - 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 이를 표준화한 거리이다. 변수간의 상관성을 고려한 통계적거리 맨하탄거리 - 절대값 유클리디안.. 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 인공신경망분석 인공신경망? 인간 뇌를 기반으로 추론한 모델 뉴런은 기본적인 정보처리 단위 역전파알고리즘을 활용하여 비선형성을 극복한 다계층 퍼셉트론 뉴런의 활성화 함수는 시그모이드함수의 경우 0~1값을 가짐 Relu함수 입력값이 0이하는 0, 0이상은 x값을 가짐 softmax함수 표준화지수, 사후확률을 제공하는 함수이다. 은닉층과 은닉노드의 수 신경망을 적용할 때 가장 중요한 부분이 모형의 선택임 은닉층과 은닉노드가 많을 수록 가중치가 많아져서 오버핏팅이 발생 적으면 과소적합 문제 발생 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 /앙상블 분석 앙상블여러개 예측모형들을 만든 후 예측모형들을 조합해 하나의 최종예측모형을 만드는 방법 안정적인방법 - 선형회귀모형(최소제곱법) 가장불안한방법 - 의사결정나무 앙상블기법종류 배깅 - 주어진자료에서 여러게 붓트트랩자료생성 이 자료로 예측모형을 만든후 결합해 최종예측모형을 만드는 것 보팅은 여러개의 모형으로 부터 산출된 결과를 다수결에 의해서 최종결과를 선정하는 과정 최적의 의사결정나무를 구축할 때 가장 어려운 부분이 가지치기이지만 배깅에서는 가지치기를 안하고, 최대로 성장한 의사결정나무들을 활용함 분산을 줄이고, 예측력을 향상시킴 부스팅 - 예측력이 약한 모형들을 결합하여 강한 예측모형으로 만드는 방법 Adaboost 이전분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n.. 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 분류분석 분류분석? 어떤그룹에 속하는지 예측 군집분석과 유사하지만 각그룹이 정의되어있다는게 차이 지도학습 분류기법 회귀분석 로지스틱회귀분석 의사결정나무 CART 인공신경망 KNN 로지스틱회귀분석 범주형 사후확률 목적 선형회귀분석 로지스틱 회귀분석 종속변수 연속형 (0,1) 계수 추정법 최소제곱법 최대우도추정법 모형검정 F-TEST, T-TEST 카이제곱검정 glm 로지스틱회귀분석임 glm 종속변수 독립변수들의 합 피벨류값이 0.05인지확인해야하고 자유도확인해야하고 귀무가설기각? 의사결정나무 빠르게만들 수 있고, 비정상 잡음데이터없이 민감함이 ㅇ벗이 분류가능ㄴ 정확도가 높다 분석과정 성장(정지규칙만족시중단), 지니지수,엔트로피지수, 카이제곱통계량 가지치기(불필요한크기제거), 타당성평가, 해석 의사결정나무 알고리즘 .. 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 데이터마이닝 데이터마이닝 대용량데이터에서 의미있는 패턴을 파악하거나 예측해 의사결정에 활용 지도학습 비지도학습 의사결정나무 인공신경망 일반화 선형모형 회귀분석 로지스틱회귀분석 olap 연관성 군집분석 som 데이터마이닝 목적설정 - 데이터준비 - 가공 - 기법적용 - 검증 성과분석 오분류표 실sen예pre 정분류율(accuacy) = 맞춘것분에 전부 오분류율(error rate) = 틀린것분에 전부 특이도(specificity) = 네거티브틀린것중에 / 실제 네거티브값(실제값) 민감도(sensitivity) = 파지티브맞은것중에 / 실제 파지티브값(실제값) 정확도(precision) = 파지티브 맞은것중에 / 예측 파지티브 값 재현율(recall) = 파즈티브맞은것중에 / 진짜맞은거 민감도랑 같음 f1 = 2* 정확.. 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 다차원척도법 다차원척도법 객체간 근접성을 시각화하는 통계기법 군집분석 유클리드 거리행렬을 활용 차이값을 제곱해서 더한후 루트를 씌우면 됨 계량적 MDS 구간척도, 비율척도인 경우 활용 비계량적 MDS 순서척도인 경우 활용 주성분분석 서로 상관성이 높은 변수들의 선형결합 다중공선성이 존재할 경우 모양이 만가짐 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 잇음 누적기여율이 85퍼센트 이상이면 결정(cumulative) 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 시계열분석 시계열 자료 시간의 흐름에 따라 관찰된 값들 경향,주기,계절성 시계열자료종류 비정상성시계열 - 다루기 어려운 자료(대부분) 정상성시계열 - 비정상 시계열을 핸들링해서 다루기 쉬운 시계열잘로 변환 정상성 평균이 일정할때(차분), 분산이 일정할때(변환), 공분산도 단지 시차에만 의존, 실제 특정시점 t,s에는 의존하지 않는다 차분? 현시점 자료에 전시점자료를 빼는 것임 시계열자료 분석방법 회귀분석,box-jenkins방법, 지수평활법, 시게열분해법 다중시계열분석 arima 이동평균법 과거부터 현재까지 시계열자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 팍해 다음기간을 예측하는법 간단하고, 쉽고, 고품질 적절한 기간을 사용하지 않으면 안좋음 시계열모형 AR모형 - P시점 전의 자료가 현재 자료.. 2022. 5. 19.
[ADSP 데이터분석준전문가자격증]3과목 데이터분석 / 회귀분석 회귀분석 하나나 그이상 독립변수들이 종속변수에 미치는 영향을 말하는것 y = ax+b 선형회귀분석의 가정 선형성 - 선으로 이뤄져야됨 등분산성 - 잔차들이 일정한형태를 보여야함 독립성 - 대각선, 직선형태여야함 비상관성 정상성 - 오차의 분포가 정규분포를 따름 단순선형회귀분석 입력변수와 출력변수간의 선형성 점검하기 위해 산점도 확인 회귀계수 의미는 t통계량의 p벨류값이 0.05보다 작으면 유의함 설명력은 r스퀘어값 0~1 높을수록 설명력이 높다 lm (종 독) ~ 는 회귀분석이라는 뜻임 p벨류값 df는 자유도 df+1 갯수 r스퀘어는 결정계수인데 잘 설명하고 있다는 뜻임 adjust r스퀘어 값보다 작으면 유의하지않음 glm 로지스틱회귀분석 다중선형회귀분석 선형성, 등분산성, 독립성, 정상성 모두 만족하.. 2022. 5. 19.
728x90
반응형
BIG