본문 바로가기

Upstage AI Lab 2기

(72)
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (2) 머신러닝의 통계적 학습 Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 실시간 강의(1) : ML vs. Stats Part2. 머신러닝의 통계적 학습 (안창배 강사님) DL은 ML의 하위분야ML : LGBM 등 트리기반 모델로 정형데이터 분석에 강함. 추천, 이상탐지 등에 강함.DL : 영상, 텍스트 등 비정형데이터에 강함 더보기 작년 캐글 중 H&M 프로젝트 있었는데 상위권이 다 LGBM 기반의 트리모델이었음 ML의 목적 2가지 : Prediction or Inference 통계의 Inference : 설명력 ML의 Inference : 예측값 산출 (fit -> train -> inference) train / validation / test - 가장 많이 활용되는 비율은 70 ..
Upstage AI Lab 2기 [Day026] 온라인 강의 - 기초통계 (3) 실습 Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 온라인 강의 : 기초통계 Project1 - 실제 데이터로 가설 설정, 검정 수행, 결과 해석하기 CH04_05. t-test data 또는 sample size, 비교 그룹의 성질 등에 따라 선택하는 검정이 달라짐 독립표본 t-test : 서로 독립인 두 집단 간 비교 대응표본 t-test : 동일 그룹에 대한 처리 전후 비 독립표본 t-test의 순서 표본의 크기 10~30 : 정규성 검정 정규성 O : 등분산 검정 정규성 X : 순위합 검정 표본의 크기 30 이상 : 정규성 검정 등분산 O : 등분산 가정 독립표본 t-test 등분산 X : 이분산 가정 독립표본 t-test 등분산성(Homoskedastici..
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (1) 통계 톺아보기 Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 실시간 강의(1) : ML vs. Stats Part1. 통계 톺아보기 (안창배 강사님) 통계학이 발달한 시점을 보면 19세기 말 ~ 20세기 초 -> 지금과 차이가 큼 (그 당시에는 분포표도 특허가 있었다?!) 왜도, 첨도 배우는 것도 이 시점부터 이어진 것, 오늘날은 왜도 첨도 계산해서 쓰는 일 잘 없음. 적률법 (Method of moments) 1차 평균, 2차 분산, 3차 왜도, 4차 첨도 (??? 자세한건 나중에 공부하기) In statistics, the method of moments is a method of estimation of population parameters. The same prin..
Upstage AI Lab 2기 [Day026] 온라인 강의 - 기초통계 (2) Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 온라인 강의 : 기초통계 더보기 나의 커리어 치트키 데이터 분석 유치원 Part.3 통계로 데이터 분석 능숙해지기 Chapter.04 통계 실험과 유의성검정 CH04_01. 가설검정(1) - 가설검정이란 P값이란 0:08:46 01/17 (Wed) 1:19:02 CH04_02. 가설검정(2) - 단측검정 양측검정 0:06:00 CH04_03. 가설검정(3) - 검정에서 조심해야 할 두 가지 실수 0:07:05 CH04_04. t 검정 0:04:18 CH04_05. Project1 - 실제 데이터로 가설 설정, 검정 수행, 결과 해석하기 0:16:03 CH04_06.분산분석 0:08:31 CH04_07.실제 데이터로..
Upstage AI Lab 2기 [Day024] git-협업 Upstage AI Lab 2기 2024년 1월 15일 (월) Day_024 Day_024 실시간 강의 : git (패스트캠퍼스 최우영 강사님) 1. Create New repo 'branch-practice' (README.md, MIT) 1-1. .gitignore(OS, python, vim) (https://www.toptal.com/developers/gitignore/) 2. clone repo (~/Documents/dev/) 3. Create new file 'main.py' 4. add, commit, push $ git clone (githuburl) hyj89@BOOK-UMAV30Q2HQ MINGW64 ~/Documents/dev $ git clone https://github.com..
Upstage AI Lab 2기 [Day015-022] EDA 조별 프로젝트 (5) 설명변수 조합 f1-score 문제 때문에 binary 5050 로 실험 no diabetes diabetes total sample size 33960 35097 69,057 49.18% 50.82% 100% 1. 전처리 : 'MentHlth', 'PhysHlth' 데이터 유효하지 않아 제거 BMI categorize (① 'obese', 'overweight', 'healthy', 'underweight' / ② 'obese'&'overweight', 'healthy'&'underweight' / ③ 'obese', 'not obese') scaling : StandardScaler - 'Age', 'GenHlth' MinMaxScale - 'Education', 'Income' 더보기 obese_order_lis..
Upstage AI Lab 2기 [Day015-022] EDA 조별 프로젝트 (4) 가설 설정 기초 통계량을 바탕으로 두가지 방향의 가설설정이 가능함 1. 당뇨병 예측에 필요한 변수는 [ ], [ ], [ ] 일 것이다. 2. 당뇨병 설문을 위해 [ ], [ ], [ ] 변수는 [ ] 변수만으로 충분히 설명된다. 단일 변수 검증 dependent : 'Diabetes_binary' chi-squared(categorical independent variable) : 'Diabetes_binary'와의 correlation chi-squared test p-value binary 'HighBP' 0.254318 0.0 'HighChol' 0.194944 0.0 'CholCheck' 0.072523 0.0 'Smoker' 0.045504 0.0 'Stroke' 0.099193 0.0 'HeartDis..
통계학 복습 KDC 머신러닝&AI 첫걸음 시작하기 (2022년 1월 5일~2022년2월 10일) 자료의 종류 수치형 자료 (양적 자료) : 연속형 / 이산형 범주형 자료 (질적 자료) : 순위형 / 명목형 Independent Variable Categorical Continuous Dependent Variable Categorical (or Binary) Categorical Data Analysis (Chi-Squared) Logistic Regression Continuous ANOVA Regression 표본집단의 평균 {bar{x}} / 분산 s 2 공분산 : 두 확률변수 X, Y의 (선형적) 상호관계 X, Y 독립 -> cov(X, Y) = 0 상관계수 (공분산을 단위화) 주의 : 공분산 또는 상관계수가..