Я уверен, что вы могли бы передать ваши данные через внешнюю программу или предварительно обработать ваши данные.
Если вы все равно делаете тегирование, немецкий проект TreeTagger выполняет отличную работу по тегированию и лемматизации одновременно.
РЕДАКТИРОВАТЬ: tchrist был прав, напомнив мне, что, независимо от ваших целей, если вы на самом деле ищете формы единственного числа ваших существительных во множественном числе, поиск решения, испеченного в домашних условиях, вовсе не собирается его сокращать.
А если вы этого не сделаете, то Neo_Me (опять же, в комментариях), похоже, обнаружил пакет, который происходит в R: пакет снежный ком (RStem, похоже, был прекращен. AFAICT, Snowball заменяет его.)
Конечно, это всего лишь реализация или обертка вокруг портера Porter. Используйте на свой страх и риск, это может привести к тому, что такие вещи, как жен в wif или что-то в этом роде.
Мне только что пришло в голову, что R имеет CRAN . В поисках «леммы» я узнал о Java-зависимом пакете wordnet . Кажется, есть функция getLemma
. Весь пакет, вероятно, излишний для вас, но все равно может вас куда-то найти, если вы не найдете ничего лучшего.