Коранический корпус арабского языка

Коранический корпус арабского языка
Коранический корпус арабского языка
URL	corpus.quran.com
Коммерческий	GNU General Public License
Тип сайта	корпус текстов
Язык (-и)	арабский/английский
Расположение сервера	Великобритания
Владелец	Лидский университет
Начало работы	2009
Текущий статус	работает и развивается

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык^[1]^[2]^[3]^[4]^[5].

Функции

Грамматический анализ текста помогает пользователям раскрывать предполагаемые значения каждого аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам Кайс Дюкс^[англ.] из Лидского университета^[4], который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла^[6].

Аннотированный корпус включает в себя^[1]^[7]:

верифицированную вручную частеречную разметку текста на арабском языке;
аннотированную древовидную структуру корпуса классического арабского языка;
новую визуализацию традиционной арабской грамматики через графы зависимостей;
морфологический поиск по тексту Корана;
машиночитаемый морфологический арабо-английский словарь;
частеречный конкорданс арабского языка Корана, с лемматизацией;
онлайновую доску объявлений для волонтёров сообщества.

Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени.

Лингвистические исследования, в которых используется Коранический корпус, включают в себя обучение скрытой марковской модели частеречной разметки арабского языка^[8], автоматическую категоризацию глав Корана^[9] и просодический анализ текста^[10].

Кроме того, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана^[4].

См. также

Примечания

Ссылки

Quranic Arabic Corpus

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Search

Коранический корпус арабского языка

Содержание

Функции

См. также

Примечания

Ссылки