Question

Меня интересует термин «Машинное обучение», «Глубинное обучение» или «Обработка естественного языка», который разбивает слово в абзаце, когда между ними нет пробела.

пример: «iwanttocook»

становится: «Я хочу готовить»

Это было бы непросто, поскольку у вас нет персонажа, чтобы пометить слово.

Я ценю любую помощь

trotta · Answer 1 · 21 февраля 2019

Этого можно добиться, используя пакет polyglot.Существует возможность морфологического анализа.

Этот вид анализа основан на morferor моделях, обученных на наиболее часто встречающихся словах встречаться с морфемами («примитивные единицы синтаксиса, наименьшие индивидуально значимые элементы ввысказывания языка ").

Из документации :

from polyglot.text import Text

blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)

Вывод будет:

WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])

Обратите внимание, что еслиЕсли вы хотите начать работать с полиглотом, вам следует сначала внимательно прочитать документацию, поскольку следует учитывать несколько моментов, например загрузка моделей для конкретного языка.

Слово токенизация, когда нет места

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Слово токенизация, когда нет места

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы