본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day031] 머신러닝 기초 개념 이해 (1)

Upstage AI Lab 2기
2024년 1월 24일 (수) Day_031 (all day)

Day_031 실시간 강의 : 머신러닝 기초 개념 이해

(김용담 강사님)

 

데이터분석을 위한 선형대수 -> 데이터를 벡터로 이해하기

 

ML부터 수학적 원리 필요.

벡터 공간 자체에 대한 이해와 벡터에 대해 가능한 연산에 대한 이해가 필요

 

데이터 분석 예시

두 개의 수학적 개념 필요 - vector & distance function

왜 거리개념이 필요한가? - 수치적 기준을 제시하기 위해서

 

데이터는 벡터다

≒ list of numbers as one entity

(1 row in a tabular dataset)

conceptual - 하나의 데이터를 여러 개의 숫자로 표현 가능!

computational - 데이터 간의 연산 가능!

데이터 간 연산이 가능해진다는 것은 비교가 가능해진다는 의미이고, 관계를 모델링 할 수 있음.

 

(c) 2023. codingiscoffee Co. all rights reserved.

 

 

Feature Space

각 원소에 대한 정의가 중요해지고 단위가 중요해짐

 

예1. 데이터를 벡터로 표현한다면 축을 무엇으로 잡을것인가.

-> 기존 column을 그대로 가져다 쓸 수도 있지만 축을 새롭게 정의할 수도 있음

--> mapping(=embedding) 고차원 to 저차원 (PCA, AutoEncoding 등)

 

벡터의 내적

cross product 정의 꼭 찾아보기!

 

벡터 간 거리 정의

(c) 2023. codingiscoffee Co. all rights reserved.

거리 함수를 사용하는 모든 모델에서 주의 : scaling을 안하면 왜곡이 생김

 

 

기타 키워드

ICML 2015년 'word mover's distance'

non-euclidean distance

hyperbolic space

spherical space

...

 

 

 

Feature Space의 정의

(c) 2023. codingiscoffee Co. all rights reserved.

input vector ---(***feature engineering)---> feature vector

selection과 extraction은 다름

 

 

(c) 2023. codingiscoffee Co. all rights reserved.

X (feature vector) → y(target value)

feature space 차원 ↑

 - 표현력

 - 문제 난이도

(문제 난이도와 표현력 사이에 tradeoff가 있음)

∴ 적당한 차원! ← 어떤 공간에 표현하느냐가 중요.