[Paper Review] REALM: Retrieval-Augmented Language Model Pre-Training
Paper Review for REALM
0. Abstract π¬
μ§κΈκΉμ§ μ¬λ¬ LM pre-training μ μμ²λκ² λ§μ μμ μ§μμ νμ΅νκΈ° μν΄μ μ§νλμ΄ μμΌλ©°, μ΄λ NLP task μ€μμλ QA task μ λ§€μ° μ€λν μν₯μ μ£Όμλ€. νμ§λ§, μ΄ μ§μλ€μ μμμ μΌλ‘ λͺ¨λΈμ νλΌλ―Έν°μ μ μ₯λμ΄ μμΌλ©°, λ λ§μ μ§μμ νμ΅νκΈ° μν΄μλ λ ν° network μ΄ νμνλ€. μ§μμ λμ± ν΄μ κ°λ₯νκ³ , μΌλ°μ μΌλ‘ μ μ₯νκΈ° μν΄μλ, latent knowledge retriever, μ¦ λ€λ₯Έ large corpus λ΄λΆμ document μμ retrieve ν΄μ£Όλ λͺ¨λΈμ΄ νμνλ€.
μ²μμΌλ‘ λ³Έ λ Όλ¬Έμμλ masked language λͺ¨λΈλ§ λ°©μμΌλ‘ knowledge retriever μ unsupervised λ°©μμΌλ‘ νμ΅μν€λ κ²μ λ³΄μΌ κ²μ΄κ³ , μ΄λ₯Ό μμ νλ₯Ό ν΅ν΄ νμ΅νλ κ³Όμ κΉμ§ λ³΄μΌ κ²μ΄λ€. λ³Έ λ Όλ¬Έμμλ Retrieval-Augmented Language Model pre-training μ OPQA μ μ μ©μν¬ κ²μ΄κ³ , λͺ μμ μ§μκ³Ό μμμ μ§μμ λν΄μ λ€λ₯Έ SOTA λͺ―λΈλ€κ³Ό λΉκ΅νμ¬ λ€λ₯Έ λͺ¨λΈλ€μ μ±λ₯μ λ₯κ°ν¨μ λ³΄μΌ κ²μ΄λ€.
1. Introduction βοΈ
μ΅κ·Ό BERT, RoBERTa, T5μ κ°μ λ€μν LM μ pre-trainingμ μμ²λ μμ world knowledge λ₯Ό μ μ₯νκ³ μμΌλ©°, μ΄λ κ·Έ λͺ¨λΈλ€μ΄ νμ΅ν μμ²λ μμ text λ°μ΄ν°μ κΈ°λ°νλ€.
μλ₯Ό λ€μ΄
βThe __ is the currency of the United Kingdomβ. (answer : pound)
μ΄λΌλ λ¬Έμ₯μμ μμ½κ² λ§μ€νΉλ λ¨μ΄λ₯Ό μμΈ‘ν΄λΌ μ μλ€.
μ΄λ° LMλ€μ κ²½μ°, world knowledgge λ₯Ό νλΌλ―Έν°λ₯Ό ν΅ν΄ μμμ μΌλ‘ μ μ₯νλ©°, μ΄λ κ·Έ μ§μμ΄ μ΄λ»κ², μ΄λμ μ μ₯λμ΄ μλμ§λ₯Ό νμ νκΈ°κ° μ΄λ ΅λ€. λ λμκ°, store space λ νμ μ μ΄κΈ° λλ¬Έμ, λ λ§μ μ§μμ μν΄μλ λ ν° λ€νΈμν¬κ° νμμ μ΄λΌκ³ ν μ μλ€.
λ³΄λ€ λ λ§μ μ§μμ μ μ₯νκ³ , ν΄μ κ°λ₯ν λ°©μμ μν΄μ λ³Έ λ Όλ¬Έμμλ REALM (Retrieval-Augmented Language Model) μ μκ°νλ€. μ΄ λ°©μμ learned textual knowledge retriever μ μ¬μ©νμ¬ λͺ¨λΈμ pre-traing λ°©μμ μ¦μ§μν¨λ€. λ€λ₯Έ λͺ¨λΈλ€κ³Όλ λ°λλ‘ μ΄ λͺ¨λΈμ inference μμ μ΄λ€ μ 보λ₯Ό retrieve νκ³ μ¬μ©ν κ²μΈμ§λ₯Ό μμ²νμ¬ μ§μμ λͺ μμ μ κ·Όμ μ μ©νλ€. κ° prediction μ μ, retriever μ μ¬μ©νμ¬ λ§€μ° ν° corpus λ΄λΆμ documnet λ₯Ό κ²μνκ² λκ³ , μ΄ document λ₯Ό νμ©νμ¬ μ§λ¬Έμ λν λ΅μ μμ±ν΄λΈλ€. μ΄ λͺ¨λΈμ end-to-end λ°©μμΌλ‘ νμ΅νλ κ²μ retriever μ λν backpropagation μ μꡬνλ©°, μ΄λ κ³§ μ 체 corpus μ λν μ κ·Όμ΄ νμνλ€.
μ΄ REALM λ°©μμ λν key intuition μ retriever μ νμ΅μν¬ λ, unsupervised-text κΈ°λ°μ performance-based signal μ μ¬μ©νλ κ²μ΄λ€. μ΄ λ°©μμ LMμ perplexity λ₯Ό ν₯μμν€λ retrieval μ λν΄μ reward λ₯Ό λΆμ¬νκ² λλ€.
μλ₯Ό λ€μ΄, βthe ____ at the top of the pyramidβ λΌλ λ¬Έμ₯μ΄ μ‘΄μ¬νκ³ , λ§μ€νΉλ ν ν°μ predict νκ³ μ ν λ, retrieverμ λ€μκ³Ό κ°μ document λ₯Ό retrieve ν λ rewarded λκ² λλ€.
βThe pyramidion on top allows for less material higher up the pyramidβ
λ³Έ λ Όλ¬Έμμλ latent variable LMμ λν retrieve-then-predict μ κ·Όμ λͺ¨λΈλ§μ ν΅ν΄μ marginal likelihood λ₯Ό μ΅μ νμν€λ λ°©ν₯μ νμ΅νκ² λλ€.