На основании личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:
Функция лемматизации основана на XTAG Project , которыйвключает в себя морфологический анализатор.В рамках проекта XTAG были проанализированы несколько корпусов.Рассматривая TreeTagger, особенно актуален анализ корпуса Penn Treebank, поскольку этот корпус является обучающим корпусом для английского файла параметров TreeTagger.Учитывая лемматизацию, леммы просто хранятся в лексиконе.TreeTagger, наконец, использует эту лексику в качестве справочной таблицы.
Следовательно, с TreeTagger вы можете получить только те леммы, которые есть в лексиконе.
В случае, если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам потребуется морфологический анализатор ив зависимости от вашего подхода, подходящий учебный корпус, хотя это не кажется обязательным, поскольку несколько анализаторов работают довольно хорошо, даже если непосредственно применяются к анализируемому корпусу.