본문 바로가기

Upstage AI Lab 2기

통계학 복습

KDC 머신러닝&AI 첫걸음 시작하기 (2022년 1월 5일~2022년2월 10일)

 

자료의 종류

  • 수치형 자료 (양적 자료) : 연속형 / 이산형
  • 범주형 자료 (질적 자료) : 순위형 / 명목형

 

  Independent Variable
Categorical Continuous
Dependent Variable Categorical
(or Binary)
Categorical Data Analysis
(Chi-Squared)
Logistic Regression
Continuous ANOVA Regression

 

 

표본집단의 평균 {bar{x}} / 분산 s 2 

공분산 : 두 확률변수 X, Y의 (선형적) 상호관계

X, Y 독립 -> cov(X, Y) = 0

상관계수 (공분산을 단위화)

주의 : 공분산 또는 상관계수가 0 이라고 해서 X, Y가 반드시 독립인 건 아님. (X, Y가 정규분포일 때만 성립)

 

 

이산형 확률분포

- 베르누이 시행 : 실험 결과 binary

- 이항분포 : 베르누이 시행 n번

- 다항분포 : 다항시행 독립적으로 n번

(각 범주가 나타나는 횟수의 확률분포)

- 포아송(Poisson) 분포 : 주어진 단위 구간 내 평균적으로 발생하는 사건의 횟수가 정해져 있을 때, 동일 단위에서의 발생 횟수.

조건 (1) : 사건의 평균 발생횟수는 단위 구간에 비례

        (2) : 두 개 이상의 사건이 동시에 발생할 확률 0

        (3) : 어떤 단위구간의 사건 발생은 다른 단위 구간의 발생과 독립적