Как TreeTagger получает лемму слова? - PullRequest
0 голосов
/ 05 июня 2018

Я использую TreeTagger для получения лемм слов на испанском языке, но я заметил, что слишком много слов, которые не преобразуются, как должно быть.Я хотел бы знать, как работает эта операция, если она выполняется с помощью таких методов, как деревья решений или алгоритмы машинного обучения, или она просто содержит список слов с соответствующей леммой.Кто-то знает это?Спасибо !!

1 Ответ

0 голосов
/ 11 июня 2018

На основании личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:

Функция лемматизации основана на XTAG Project , которыйвключает в себя морфологический анализатор.В рамках проекта XTAG были проанализированы несколько корпусов.Рассматривая TreeTagger, особенно актуален анализ корпуса Penn Treebank, поскольку этот корпус является обучающим корпусом для английского файла параметров TreeTagger.Учитывая лемматизацию, леммы просто хранятся в лексиконе.TreeTagger, наконец, использует эту лексику в качестве справочной таблицы.

Следовательно, с TreeTagger вы можете получить только те леммы, которые есть в лексиконе.

В случае, если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам потребуется морфологический анализатор ив зависимости от вашего подхода, подходящий учебный корпус, хотя это не кажется обязательным, поскольку несколько анализаторов работают довольно хорошо, даже если непосредственно применяются к анализируемому корпусу.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...