Mechanizm uwagi (uczenie maszynowe)

Mechanizm uwagi – mechanizm uczenia maszynowego symulujący działanie ludzkiej uwagi poprzez przypisywanie różnych poziomów ważności różnym słowom w zdaniu^[1]. Mechanizm nadaje wagę każdemu słowu, obliczając „miękkie” wagi dla numerycznej reprezentacji słowa, zwanej jego osadzeniem (ang. embedding), w określonym oknie kontekstu (części zdania). Obliczanie tych wag może odbywać się jednocześnie w modelach zwanych transformatorami lub pojedynczo w modelach zwanych rekurencyjnymi sieciami neuronowymi. W przeciwieństwie do „twardych” wag, z góry określonych i stałych podczas treningu, „miękkie” wagi mogą dostosowywać się i zmieniać przy każdym użyciu modelu.

Mechanizm został rozwinięty w odpowiedzi na słabe strony wykorzystania informacji pochodzących z ukrytych stanów rekurencyjnych sieci neuronowych. Rekurencyjne sieci neuronowe faworyzują nowsze informacje zawarte w słowach na końcu zdania, podczas gdy oczekuje się, że informacje znajdujące się wcześniej w zdaniu będą tłumione. Uwaga pozwala na obliczenie ukrytej reprezentacji tokenu równego dostępu do dowolnej części zdania bezpośrednio, a nie tylko poprzez poprzedni stan ukryty^[2].

Przypisy

[1]

[2]