Пакет для генерации моделей языка n-грамм с сглаживанием?(Альтернативы НЛТК) - PullRequest
4 голосов
/ 14 июля 2011

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но другие это сделают), который автоматически генерирует n-граммные вероятности из входного текста и может также автоматически применять один или несколько алгоритмов сглаживания.

То есть я ищу что-то вроде класса NLTK NgramModel.Я не могу использовать это в своих целях, потому что есть некоторые ошибки с функциями сглаживания, которые заставляют его задыхаться, когда вы спрашиваете вероятность слова, которое он не видел раньше.

Я прочитал форумы разработчиков для NLTK, и на данный момент, похоже, нет никакого прогресса в этом.

Есть ли альтернативы?

Ответы [ 3 ]

4 голосов
/ 14 июля 2011

Похоже, я ответил на свой вопрос, поэтому я упомяну то, что нашел здесь, на случай, если другие его ищут.

Я нашел два набора инструментов:

Похоже, они имеют очень похожую функциональность. Оба включают множество функций сглаживания.

0 голосов
/ 06 апреля 2015

NLTK также предоставляет пакет моделей ngram, который имеет сглаживание, откат и т. Д.

0 голосов
/ 28 августа 2011

Полагаю, что другим ответом было бы либо загрузить наборы данных , которые Google предоставляет , если эти данные подходят для вашего приложения, либо использовать их онлайн-просмотрщик .

...