본문 바로가기

전체 글

(108)
Upstage AI Lab 2기 [Day031] 머신러닝 기초 개념 이해 (1) Upstage AI Lab 2기 2024년 1월 24일 (수) Day_031 (all day) Day_031 실시간 강의 : 머신러닝 기초 개념 이해 (김용담 강사님) 데이터분석을 위한 선형대수 -> 데이터를 벡터로 이해하기 ML부터 수학적 원리 필요. 벡터 공간 자체에 대한 이해와 벡터에 대해 가능한 연산에 대한 이해가 필요 데이터 분석 예시 두 개의 수학적 개념 필요 - vector & distance function 왜 거리개념이 필요한가? - 수치적 기준을 제시하기 위해서 데이터는 벡터다 ≒ list of numbers as one entity (1 row in a tabular dataset) conceptual - 하나의 데이터를 여러 개의 숫자로 표현 가능! computational - 데이..
Upstage AI Lab 2기 [Day028] 실시간 강의 - 통계(4) Upstage AI Lab 2기 2024년 1월 19일 (금) Day_028 Day_028 실시간 강의(2) : (안창배 강사님) 왜 통계일까? Average만 해도 다양한 방법이 있음 https://en.wikipedia.org/wiki/Average 예를 들어 poisson 분포의 경우 중앙값을 쓰면 안되고 절삭평균을 써야한다든지... how to handle not stochastic issues?? 아니면 컴퓨터가 not stochastic? Data Scientist -> Decision making 추정과 기댓값 (통계적 추론 Inference) 수치적 상관성 관계에 대한 가정이 있음. 이 가정이 만족되지 않으면 신뢰 X 통계는 굉장히 비직관적인 부분이 있는데 가설검정도 그런 부분 중 하나 신..
#03_통계
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (3) Statistical Learning Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 실시간 강의(2) : Statistical Learning Part1. 통계 기반 ML: 회귀 (안창배 강사님) 회귀 : 평균으로의 회귀 회귀 vs. 분류(혹은 랭킹) Linear Regression Ridge/LASSO https://towardsdatascience.com/from-linear-regression-to-ridge-regression-the-lasso-and-the-elastic-net-4eaecaf5f7e6 https://ekamperi.github.io/mathematics/2020/08/02/bayesian-connection-to-lasso-and-ridge-regression.html S..
Upstage AI Lab 2기 [Day027] 선형회귀분석 Upstage AI Lab 2기 2024년 1월 18일 (목) Day_027 Day_027 온라인 강의 : 선형회귀분석 더보기 Part.3 통계로 데이터 분석 능숙해지기 Chapter.05 선형회귀분석 CH05_01. 단순 선형회귀분석 0:07:41 01/18 (Thu) 1:27:04 CH05_02. 다중 선형회귀분석 0:12:39 CH05_03. 선형회귀의 기본적인 가정 5가지 0:12:39 CH05_04. 다중 선형회귀분석 미니 프로젝트 0:54:05 CH05_01. 단순 선형회귀분석 독립변수(x)로 종속변수(y)를 예측하는 것 CH05_02. 다중 선형회귀분석 CH05_03. 선형회귀의 기본적인 가정 5가지 오차(Error) : 모집단 회귀식 (예측값 - 관측값) 잔차(Residual) : 표본집단..
[패스트캠퍼스 Upstage AI Lab 2기 부트캠프] #02_미니 프로젝트 (2) EDA 조별 프로젝트 (+ 1.5개월차후기) #00_1.5개월차 후기 2023년 12월 11일 OT를 기점으로 '전역을 기다리는 병장'처럼(내 모습을 지켜본 아버지의 비유였다.) 달력에 26번째 빗금을 쳤다. 오늘로 27일차. 그동안 실시간 강의와 엄청난 양의 온라인 강의 + 개인적으로 궁굼한 부분에 대한 추가 조사 + 한번의 개인 프로젝트 + 한번의 팀 프로젝트 (+ 원치 않게 급작스럽게 이사를 하게 된 부분까지) 분명 앉아만 있었는데 매일이 숨이 찬 나날들이었다. 후하후하 (막내 조원한테 배운 표현 ㅎㅎ) 매일 교육 내용을 정리해서 하루 한번 블로그에 정리글을 올리는 것이 소소한 목표였으나, 코드를 작성하는 테크닉이 부족하다 보니 오히려 초반 2주는 글을 쓸 엄두조차 나지 않았다. 부트캠프라는게 아무래도 수학의 정석 펴고 정의부터 읽고 한걸음한..
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (2) 머신러닝의 통계적 학습 Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 실시간 강의(1) : ML vs. Stats Part2. 머신러닝의 통계적 학습 (안창배 강사님) DL은 ML의 하위분야ML : LGBM 등 트리기반 모델로 정형데이터 분석에 강함. 추천, 이상탐지 등에 강함.DL : 영상, 텍스트 등 비정형데이터에 강함 더보기 작년 캐글 중 H&M 프로젝트 있었는데 상위권이 다 LGBM 기반의 트리모델이었음 ML의 목적 2가지 : Prediction or Inference 통계의 Inference : 설명력 ML의 Inference : 예측값 산출 (fit -> train -> inference) train / validation / test - 가장 많이 활용되는 비율은 70 ..
Upstage AI Lab 2기 [Day026] 온라인 강의 - 기초통계 (3) 실습 Upstage AI Lab 2기 2024년 1월 17일 (수) Day_026 Day_026 온라인 강의 : 기초통계 Project1 - 실제 데이터로 가설 설정, 검정 수행, 결과 해석하기 CH04_05. t-test data 또는 sample size, 비교 그룹의 성질 등에 따라 선택하는 검정이 달라짐 독립표본 t-test : 서로 독립인 두 집단 간 비교 대응표본 t-test : 동일 그룹에 대한 처리 전후 비 독립표본 t-test의 순서 표본의 크기 10~30 : 정규성 검정 정규성 O : 등분산 검정 정규성 X : 순위합 검정 표본의 크기 30 이상 : 정규성 검정 등분산 O : 등분산 가정 독립표본 t-test 등분산 X : 이분산 가정 독립표본 t-test 등분산성(Homoskedastici..