Pažnja (mašinsko učenje)

Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke“ težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke“ težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih“ pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.

Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.

Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.

Prethodnici

Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke“ težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice^[1] i hiper-mreže.^[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,^[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.^[4]^[5]^[6]^[7]^[8]

Reference

Spoljašnje veze

Dan Jurafsky and James H. Martin (2022) Speech and Language Processing (3rd ed. draft, January 2022), ch. 10.4 Attention and ch. 9.7 Self-Attention Networks: Transformers
Alex Graves (4 May 2020), Attention and Memory in Deep Learning (video lecture), DeepMind / UCL, via YouTube
Rasa Algorithm Whiteboard - Attention via YouTube

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]