Upstage AI Lab 2기
2024년 1월 24일 (수) Day_031 (all day)
Day_031 실시간 강의 : 머신러닝 기초 개념 이해
(김용담 강사님)
데이터분석을 위한 선형대수 -> 데이터를 벡터로 이해하기
ML부터 수학적 원리 필요.
벡터 공간 자체에 대한 이해와 벡터에 대해 가능한 연산에 대한 이해가 필요
데이터 분석 예시
두 개의 수학적 개념 필요 - vector & distance function
왜 거리개념이 필요한가? - 수치적 기준을 제시하기 위해서
데이터는 벡터다
≒ list of numbers as one entity
(1 row in a tabular dataset)
conceptual - 하나의 데이터를 여러 개의 숫자로 표현 가능!
computational - 데이터 간의 연산 가능!
데이터 간 연산이 가능해진다는 것은 비교가 가능해진다는 의미이고, 관계를 모델링 할 수 있음.

Feature Space
각 원소에 대한 정의가 중요해지고 단위가 중요해짐
예1. 데이터를 벡터로 표현한다면 축을 무엇으로 잡을것인가.
-> 기존 column을 그대로 가져다 쓸 수도 있지만 축을 새롭게 정의할 수도 있음
--> mapping(=embedding) 고차원 to 저차원 (PCA, AutoEncoding 등)
벡터의 내적

cross product 정의 꼭 찾아보기!
벡터 간 거리 정의

거리 함수를 사용하는 모든 모델에서 주의 : scaling을 안하면 왜곡이 생김
기타 키워드
ICML 2015년 'word mover's distance'
non-euclidean distance
hyperbolic space
spherical space
...
Feature Space의 정의

input vector ---(***feature engineering)---> feature vector
selection과 extraction은 다름

X (feature vector) → y(target value)
feature space 차원 ↑
- 표현력 ↑
- 문제 난이도 ↑
(문제 난이도와 표현력 사이에 tradeoff가 있음)
∴ 적당한 차원! ← 어떤 공간에 표현하느냐가 중요.
'Upstage AI Lab 2기' 카테고리의 다른 글
Upstage AI Lab 2기 [Day040] 자료구조 및 알고리즘 (1) (0) | 2024.02.06 |
---|---|
Upstage AI Lab 2기 [Day031] Machine Learning Workflow (1) (0) | 2024.01.24 |
Upstage AI Lab 2기 [Day028] 실시간 강의 - 통계(4) (0) | 2024.01.19 |
Upstage AI Lab 2기 [Day026] 실시간 강의 - 통계 (3) Statistical Learning (0) | 2024.01.18 |
Upstage AI Lab 2기 [Day027] 선형회귀분석 (0) | 2024.01.18 |