Question

Я хотел бы найти какой-то тип пакета или модуля (предпочтительно Python или Perl, но другие это сделают), который автоматически генерирует n-граммные вероятности из входного текста и может также автоматически применять один или несколько алгоритмов сглаживания.

То есть я ищу что-то вроде класса NLTK NgramModel.Я не могу использовать это в своих целях, потому что есть некоторые ошибки с функциями сглаживания, которые заставляют его задыхаться, когда вы спрашиваете вероятность слова, которое он не видел раньше.

Я прочитал форумы разработчиков для NLTK, и на данный момент, похоже, нет никакого прогресса в этом.

Есть ли альтернативы?

Alan H. · Answer 1 · 14 июля 2011

Похоже, я ответил на свой вопрос, поэтому я упомяну то, что нашел здесь, на случай, если другие его ищут.

Я нашел два набора инструментов:

Похоже, они имеют очень похожую функциональность. Оба включают множество функций сглаживания.

Adam_G · Answer 2 · 06 апреля 2015

NLTK также предоставляет пакет моделей ngram, который имеет сглаживание, откат и т. Д.

snim2 · Answer 3 · 28 августа 2011

Полагаю, что другим ответом было бы либо загрузить наборы данных , которые Google предоставляет , если эти данные подходят для вашего приложения, либо использовать их онлайн-просмотрщик .

Пакет для генерации моделей языка n-грамм с сглаживанием?(Альтернативы НЛТК)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пакет для генерации моделей языка n-грамм с сглаживанием?(Альтернативы НЛТК)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы