Electra#
ELECTRA : PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS#
Masked language modeling(MLM)๋ค์ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ์์ ๊ณ์ฐ์ ํ์๋กํ๋ค. ๊ทธ์ ๋ํ ๋์์ผ๋ก ์ด ๋
ผ๋ฌธ์ replaced token detection์ด๋ผ๊ณ ๋ ํ๋ pre-training์ ํจ์จ์ ์ผ๋ก ํ๋ ๊ฒ์ ์์๋ฅผ ๋๋ค. ์
๋ ฅ์ masking ํ๋ ๋์ ์์ generator ๋ชจ๋ธ์ ํตํด ์์ฑ๋ ํ ํฐ์ผ๋ก ๋์ฒดํ๋ค. ๊ทธ๋์ corrupted ํ ํฐ๋ค์ ์๋ณธ์ ์์ธกํ๋ ๋์ ์ด ํ ํฐ์ด ์์ฑ๋ ํ ํฐ์ธ์ง ์๋์ง๋ฅผ ๋ถ๋ณํ๋ค.
๊ทธ๋์ BERT์ ๋๊ฐ์ ๋ชจ๋ธ ์ฌ์ด์ฆ, ๋ฐ์ดํฐ, ํ์ต์์ผ๋ก ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ง๊ณ , RoBERTa๋ XLNet ๋ณด๋ค 1/4์ ๊ณ์ฐ๋์ผ๋ก ๋น์ทํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ๊ฐ์ ๊ณ์ฐ๋์ด๋ฉด ๋ ๋ฅ๊ฐํ๋ค.
intro#
ํ์ฌ ๋ค์ํ ์ธ์ด๋ชจ๋ธ๋ค์ denoising autoencoders๋ก ๋ณด์ฌ์ง๋ค. ์ด ๋ ๋ณดํต 15%์ ์ ๋ ฅ์ mask๋ฅผ ํ๊ฑฐ๋ ์ด ํ ํฐ์ attention์ ํ๋ค. ๊ทธ ํ Bart๊ฐ์ ๋ชจ๋ธ๋ค์ sentence ์์๋ฅผ ๋ฐ๊พธ๊ณ span์์ฒด๋ฅผ ๋ฐ๊พธ๊ธฐ๋ ํ๋ค~ ๊ทธ๋์ ์ด ํ ํฐ๋ค์ recoverํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ๋ค. ์ด์ ๋ํ ๋์์ผ๋ก replaced token detection์ ๋ชฉ์ ์ผ๋ก ์ผ์ ์ ๋ ฅ๊ณผ ์์ฑํด์ ๋์ฒด๋ ํ ํฐ๋ค์ ๊ตฌ๋ณํ๋ ๊ฒ์ ํ์ตํ๋ค. ๋์ฒด๋ ํ ํฐ๋ค์ ๋ง์คํน ๋์ ์์ MLM์์ proposal distribution์ผ๋ก ๋ถํฐ ๋์จ ํ ํฐ๋ค์ด๋ค.

์ด ๊ณผ์ ์ GAN๊ณผ ๋น์ทํด๋ณด์ผ์๋ ์์ผ๋, generator๋ text์ ์ ์ฉํ๊ธฐ ์ด๋ ค์์ maximum likelihood๋ก ํ๋ จ๋๊ธฐ ๋๋ฌธ์ adversarial ๋ฐฉ๋ฒ์ ์๋๋ค(Language GANs Falling Short) ๊ทธ๋์ ๊ฒฐ๊ตญ 1/4์ ๊ณ์ฐ๋์ผ๋ก ALBERT๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋ฌ๊ณ ์ด ๋น์์ SQUAD 2.0 SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
method..#
2๊ฐ์ ์ ๊ฒฝ๋ง์ ํ์ต์ฌ๋๋ฐ generator G์ discriminator D๋ฅผ ํ์ตํ๋ค. vector representation h(x) ์ embedding e, position t ์ผ ๋, generator๋ softmax layer๋ฅผ ํตํด ๋ค์๊ณผ ๊ฐ์ด ์ถ๋ ฅ๋๋ค $$pG_(x_t|x) =exp(e(x_t)^T hG(x)t) / \sum{xโ}exp(e(xโฒ)^T hG(x)_t)$$ discriminator๋ ๋ค์๊ณผ ๊ฐ๋ค $$D(x,t)=sigmoid(w^ThD(x)_t)$$
์ถ๊ฐ์ ์ผ๋ก genrator์ discriminator ๊ฐ์ sharing weights๋ฅผ ํตํด์ ํจ์จ์ ์ผ๋ก ํ์ต์ ์งํํ๋ค. ์ด ๋ token๊ณผ positional embedding์ ๊ณต์ ํ๋ค.S
์ด ๋, discriminator ๋ชจ๋ธ์ ํฌ๊ธฐ๋ generator ๋ณด๋ค ์ปค์ผ ์์ํ๊ฒ ๊ตฌ๋ณ์ ํ๋ฉด์ ํ์ต์ด ๋๋ค.
๋ง์ฝ ์ฌ์ด์ฆ๊ฐ ๊ฐ๋ค๋ฉด ๊ฑฐ์ 2๋ฐฐ์ ๋ ๋ ํ์ต์ ์งํํด์ผ ํ๋ค.
Training Algorithms#
ํจ๊ณผ์ ์ผ๋ก jointly trainํ๋ two-stage ์ ์ฐจ์ด๋ค.
generator MLM์ n step์งํํ๋ค.
generator์ weights๋ก discriminator๋ฅผ Initializeํ ํ, generator์ weights๋ฅผ ๋ฉ์ถ ํ์ discriminator๋ฅผ n steps ํ์ตํ๋ค.