Post

[Paper Review] REALM: Retrieval-Augmented Language Model Pre-Training

Paper Review for REALM

[Paper Review] REALM: Retrieval-Augmented Language Model Pre-Training
REALM: Retrieval-Augmented Language Model Pre-Training
arxiv pdf link for REALM

link

0. Abstract 🎬

μ§€κΈˆκΉŒμ§€ μ—¬λŸ¬ LM pre-training 은 μ—„μ²­λ‚˜κ²Œ λ§Žμ€ μ–‘μ˜ 지식을 ν•™μŠ΅ν•˜κΈ° μœ„ν•΄μ„œ μ§„ν–‰λ˜μ–΄ μ™”μœΌλ©°, μ΄λŠ” NLP task μ€‘μ—μ„œλ„ QA task 에 맀우 μ€‘λŒ€ν•œ 영ν–₯을 μ£Όμ—ˆλ‹€. ν•˜μ§€λ§Œ, 이 지식듀은 μ•”μ‹œμ μœΌλ‘œ λͺ¨λΈμ˜ νŒŒλΌλ―Έν„°μ— μ €μž₯λ˜μ–΄ 있으며, 더 λ§Žμ€ 지식을 ν•™μŠ΅ν•˜κΈ° μœ„ν•΄μ„œλŠ” 더 큰 network 이 ν•„μš”ν•˜λ‹€. 지식을 λ”μš± 해석 κ°€λŠ₯ν•˜κ³ , 일반적으둜 μ €μž₯ν•˜κΈ° μœ„ν•΄μ„œλŠ”, latent knowledge retriever, 즉 λ‹€λ₯Έ large corpus λ‚΄λΆ€μ˜ document μ—μ„œ retrieve ν•΄μ£ΌλŠ” λͺ¨λΈμ΄ ν•„μš”ν•˜λ‹€.

처음으둜 λ³Έ λ…Όλ¬Έμ—μ„œλŠ” masked language λͺ¨λΈλ§ λ°©μ‹μœΌλ‘œ knowledge retriever 을 unsupervised λ°©μ‹μœΌλ‘œ ν•™μŠ΅μ‹œν‚€λŠ” 것을 보일 것이고, 이λ₯Ό μ—­μ „νŒŒλ₯Ό 톡해 ν•™μŠ΅ν•˜λŠ” κ³Όμ •κΉŒμ§€ 보일 것이닀. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” Retrieval-Augmented Language Model pre-training 을 OPQA 에 μ μš©μ‹œν‚¬ 것이고, λͺ…μ‹œμ  지식과 μ•”μ‹œμ  지식에 λŒ€ν•΄μ„œ λ‹€λ₯Έ SOTA λͺ―델듀과 λΉ„κ΅ν•˜μ—¬ λ‹€λ₯Έ λͺ¨λΈλ“€μ˜ μ„±λŠ₯을 λŠ₯가함을 보일 것이닀.

1. Introduction β˜•οΈ

졜근 BERT, RoBERTa, T5와 같은 λ‹€μ–‘ν•œ LM 의 pre-training은 μ—„μ²­λ‚œ μ–‘μ˜ world knowledge λ₯Ό μ €μž₯ν•˜κ³  있으며, μ΄λŠ” κ·Έ λͺ¨λΈλ“€μ΄ ν•™μŠ΅ν•œ μ—„μ²­λ‚œ μ–‘μ˜ text 데이터에 κΈ°λ°˜ν•œλ‹€.

예λ₯Ό λ“€μ–΄

β€œThe __ is the currency of the United Kingdom”. (answer : pound)

μ΄λΌλŠ” λ¬Έμž₯μ—μ„œ μ†μ‰½κ²Œ λ§ˆμŠ€ν‚Ήλœ 단어λ₯Ό μ˜ˆμΈ‘ν•΄λ‚Ό 수 μžˆλ‹€.

이런 LMλ“€μ˜ 경우, world knowledgge λ₯Ό νŒŒλΌλ―Έν„°λ₯Ό 톡해 μ•”μ‹œμ μœΌλ‘œ μ €μž₯ν•˜λ©°, μ΄λŠ” κ·Έ 지식이 μ–΄λ–»κ²Œ, 어디에 μ €μž₯λ˜μ–΄ μžˆλŠ”μ§€λ₯Ό νŒŒμ•…ν•˜κΈ°κ°€ μ–΄λ ΅λ‹€. 더 λ‚˜μ•„κ°€, store space λŠ” ν•œμ •μ μ΄κΈ° λ•Œλ¬Έμ—, 더 λ§Žμ€ 지식을 μœ„ν•΄μ„œλŠ” 더 큰 λ„€νŠΈμ›Œν¬κ°€ ν•„μˆ˜μ μ΄λΌκ³  ν•  수 μžˆλ‹€.

figure 1

보닀 더 λ§Žμ€ 지식을 μ €μž₯ν•˜κ³ , 해석 κ°€λŠ₯ν•œ 방식을 μœ„ν•΄μ„œ λ³Έ λ…Όλ¬Έμ—μ„œλŠ” REALM (Retrieval-Augmented Language Model) 을 μ†Œκ°œν•œλ‹€. 이 방식은 learned textual knowledge retriever 을 μ‚¬μš©ν•˜μ—¬ λͺ¨λΈμ˜ pre-traing 방식을 μ¦μ§„μ‹œν‚¨λ‹€. λ‹€λ₯Έ λͺ¨λΈλ“€κ³ΌλŠ” λ°˜λŒ€λ‘œ 이 λͺ¨λΈμ€ inference μ‹œμ— μ–΄λ–€ 정보λ₯Ό retrieve ν•˜κ³  μ‚¬μš©ν•  것인지λ₯Ό μš”μ²­ν•˜μ—¬ μ§€μ‹μ˜ λͺ…μ‹œμ  접근을 μ μš©ν•œλ‹€. 각 prediction 전에, retriever 을 μ‚¬μš©ν•˜μ—¬ 맀우 큰 corpus λ‚΄λΆ€μ˜ documnet λ₯Ό κ²€μƒ‰ν•˜κ²Œ 되고, 이 document λ₯Ό ν™œμš©ν•˜μ—¬ μ§ˆλ¬Έμ— λŒ€ν•œ 닡을 생성해낸닀. 이 λͺ¨λΈμ„ end-to-end λ°©μ‹μœΌλ‘œ ν•™μŠ΅ν•˜λŠ” 것은 retriever 에 λŒ€ν•œ backpropagation 을 μš”κ΅¬ν•˜λ©°, μ΄λŠ” κ³§ 전체 corpus 에 λŒ€ν•œ 접근이 ν•„μš”ν•˜λ‹€.

이 REALM 방식에 λŒ€ν•œ key intuition 은 retriever 을 ν•™μŠ΅μ‹œν‚¬ λ•Œ, unsupervised-text 기반의 performance-based signal 을 μ‚¬μš©ν•˜λŠ” 것이닀. 이 방식은 LM의 perplexity λ₯Ό ν–₯μƒμ‹œν‚€λŠ” retrieval 에 λŒ€ν•΄μ„œ reward λ₯Ό λΆ€μ—¬ν•˜κ²Œ λœλ‹€.

예λ₯Ό λ“€μ–΄, β€œthe ____ at the top of the pyramid” λΌλŠ” λ¬Έμž₯이 μ‘΄μž¬ν•˜κ³ , λ§ˆμŠ€ν‚Ήλœ 토큰을 predict ν•˜κ³ μž ν•  λ•Œ, retriever은 λ‹€μŒκ³Ό 같은 document λ₯Ό retrieve ν•  λ•Œ rewarded 되게 λœλ‹€.

β€œThe pyramidion on top allows for less material higher up the pyramid”

λ³Έ λ…Όλ¬Έμ—μ„œλŠ” latent variable LM에 λŒ€ν•œ retrieve-then-predict μ ‘κ·Όμ˜ λͺ¨λΈλ§μ„ ν†΅ν•΄μ„œ marginal likelihood λ₯Ό μ΅œμ ν™”μ‹œν‚€λŠ” λ°©ν–₯을 ν•™μŠ΅ν•˜κ²Œ λœλ‹€.

μΆ”ν›„ μ™„μ„± μ˜ˆμ •..

This post is licensed under CC BY 4.0 by the author.

Trending Tags