Upstage AI Lab 2기 [Day126] Information Retrieval (3) 신경망 기본 정보 추출

Upstage AI Lab 2기
2024년 6월 14일 (금) Day_126

신경망 기본 정보 추출

Vector Similarity

임베딩 생성 : 단어/문장 → 벡터

문제점 : 반대 의미인 경우에도 유사도가 높게 나올 수 있음

1. Word2Vec - CBoW, Skip-gram → Doc2Vec, Top2Vec (Topic), Biovectors (BioVec, ProtVec, GeneVec)

→ 맥락 고려 x

2. ELMo, ULMFiT, Transformer, BERT

→ pretrained model 활용, 맥락 고려

질의-문서 pair로 BERT를 fine-tuning 해서 information retrieval 할 수는 있지만 실제로는 잘 쓰이지 않음

예) [CLS] query [SEP] document [SEP]

Query-Document Matching 알고리즘

1. Cross-Encoder 모델의 특징

<qi, doc+, {doc-}> qi : query, doc+ : relevant doc, doc- : irrelevant doc

positive pair 간 score ↑, negative pair 간 score ↓

출력된 [CLS] 토큰의 임베딩 값으로 classify

문제점 : 질의가 들어올 때마다 유사도 계산, 시간 소요

2. Bi-Encoder 모델의 특징

DPR (Dense Passage Retrieval)

<qi, doc+, {doc-}> qi : query, doc+ : relevant doc, doc- : irrelevant doc

상용 벡터 인코더 분석

Sentence-BERT

https://arxiv.org/pdf/1908.10084

BERT 2개로 query, document 각각 embedding, weight 공유

<qi, doc+, {doc-}> qi : query, doc+ : relevant doc, doc- : irrelevant doc

objective function : ① classification ② regression ③ triplet

문장 간 비교 성능 good

OpenAI Embeddings

API로만 가능

Contrastive Pre-Training

입력 8K 까지 가능

임베딩 생성 API 실습

ref :

https://web.stanford.edu/class/cs224u/background.html#

https://arxiv.org/pdf/1908.10084

https://arxiv.org/pdf/2201.10005

'Upstage AI Lab 2기' 카테고리의 다른 글

Upstage AI Lab 2기 [Day126] Information Retrieval (4) ANN (0)	2024.06.14
Upstage AI Lab 2기 [Day125] Information Retrieval (1) (1)	2024.06.14
Upstage AI Lab 2기 [Day118] LM to LLM (0)	2024.06.03
Upstage AI Lab 2기 [Day117] Data-Centric AI (0)	2024.05.31
Upstage AI Lab 2기 [Day117] LM to LLM (0)	2024.05.30

연역적 인간의 귀납적 세상에서 살아남기

Upstage AI Lab 2기 [Day126] Information Retrieval (3) 신경망 기본 정보 추출

신경망 기본 정보 추출

Vector Similarity

Query-Document Matching 알고리즘

상용 벡터 인코더 분석

임베딩 생성 API 실습

'Upstage AI Lab 2기' 카테고리의 다른 글

티스토리툴바

Upstage AI Lab 2기 [Day126] Information Retrieval (3) 신경망 기본 정보 추출

신경망 기본 정보 추출

Vector Similarity

Query-Document Matching 알고리즘

상용 벡터 인코더 분석

임베딩 생성 API 실습

'Upstage AI Lab 2기' 카테고리의 다른 글

'Upstage AI Lab 2기' Related Articles

티스토리툴바