Pažnja (mašinsko učenje)

(преусмерено са Attention (machine learning))

Pažnja zasnovana na mašinskom učenju je mehanizam koji intuitivno oponaša kognitivnu pažnju. On izračunava „meke“ težine za svaku reč, tačnije za njeno ugrađivanje, u prozoru konteksta. Ove težine se mogu izračunati paralelno (kao što je u transformatorima) ili sekvencijalno (kao u rekurentnim neuronskim mrežama). „Meke“ težine mogu da se menjaju tokom svakog rada, za razliku od „tvrdih“ pondera, koji su (pre-)uvežbani i fino podešeni i ostaju zamrznuti nakon toga.

Pažnja je usmerena na rešavanje slabosti u korišćenju informacija iz skrivenih izlaza rekurentnih neuronskih mreža. Rekurentne neuronske mreže favorizuju novije informacije sadržane u rečima na kraju rečenice, dok se očekuje da će informacije ranije u rečenici biti oslabljene. Pažnja omogućava izračunavanje skrivene reprezentacije leksema jednakog pristupa bilo kom delu rečenice direktno, a ne samo preko prethodnog skrivenog stanja.

Ranije upotrebe povezale su ovaj mehanizam sa sistemom za prevođenje jezika serijske rekurentne neuronske mreže (ispod), ali kasnije korišćenje u Transformerima velikih jezičkih modela uklonilo je rekurentnu neuronsku mrežu i u velikoj meri se oslanjalo na bržu paralelnu šemu pažnje.

Prethodnici

Prethodnici mehanizma su korišćeni u rekurentnim neuronskim mrežama koje su, međutim, sekvencijalno izračunavale „meke“ težine i, na svakom koraku, razmatrale trenutnu reč i druge reči unutar kontekstnog prozora. Oni su bili poznati kao multiplikativni moduli, sigma pi jedinice[1] i hiper-mreže.[2] Oni su korišćeni u mrežama dugotrajne kratkoročne memorije (LSTM), multi-senzornoj obradi podataka (zvuk, slike, video i tekst) u perceptorima, brzoj memoriji kontrolora težine,[3] zadacima rasuđivanja u diferencibilnim neuronskim računarima i neuronskim Tjuringovim mašinama.[4][5][6][7][8]

Reference

Spoljašnje veze