Размещение патинко

Размещение патинко (англ. pachinko allocation, PAM) — метод тематического моделирования, применяемый в машинном обучении и обработке естественного языка, позволяющий обнаружить скрытую тематическую структуру в коллекции документов^[1]. От более ранних методов (например, LDA) алгоритм отличается тем, что моделирует корреляции между темами в дополнение к корреляциям слов, задающих темы. PAM превосходит LDA по гибкости и выразительной силе^[2]. Впервые метод описан, реализован и применён для обработки текстов на естественном языке, однако, может быть использован и в других областях, например, для задач биоинформатики. Своё название получил благодаря популярным в Японии игровым автоматам патинко, в которых реализована игра, напоминающая пинбол на доске Гальтона.

История

Впервые размещение патинко было описано Ли Вэем и Эндрю Маккаллумом в 2005 году^[3]. В 2007 году Ли, Маккаллумом и Дэвидом Мимно идея была обобщена до иерархического размещения патинко^[4]. В том же году Маккаллум и его коллеги предложили ввести в PAM непараметрическое байесовское распределение, основанное на модификации иерархического процесса Дирихле (HDP)^[2]. Алгоритм реализован в Java-библиотеке с открытым исходным кодом Mallet^[англ.].

Модель

Для изображения порождающей модели строится ациклический орграф, в котором вершинами являются слова и темы, причём слова могут быть только листьями. Тогда «трёхуровневая» модель — это LDA, а «двухуровневая» модель — Дирихле-мультиномиальное распределение^{[уточнить]}.

См. также

Вероятностное латентное семантическое индексирование (PLSI) — тематическая модель, предложенная Томасом Хоффманом в 1999 году^[5].
Латентное размещение Дирихле — обобщение pLSI, предложенное Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2002 году^[6].

Примечания

[1]

[2]

[3]

[4]

[5]

[6]

Search

Размещение патинко

Содержание

История

Модель

См. также

Примечания