Слово токенизация, когда нет места - PullRequest
0 голосов
/ 21 февраля 2019

Меня интересует термин «Машинное обучение», «Глубинное обучение» или «Обработка естественного языка», который разбивает слово в абзаце, когда между ними нет пробела.

пример: «iwanttocook»

становится: «Я хочу готовить»

Это было бы непросто, поскольку у вас нет персонажа, чтобы пометить слово.

Я ценю любую помощь

1 Ответ

0 голосов
/ 21 февраля 2019

Этого можно добиться, используя пакет polyglot.Существует возможность морфологического анализа.

Этот вид анализа основан на morferor моделях, обученных на наиболее часто встречающихся словах встречаться с морфемами («примитивные единицы синтаксиса, наименьшие индивидуально значимые элементы ввысказывания языка ").

Из документации :

from polyglot.text import Text

blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)

Вывод будет:

WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])

Обратите внимание, что еслиЕсли вы хотите начать работать с полиглотом, вам следует сначала внимательно прочитать документацию, поскольку следует учитывать несколько моментов, например загрузка моделей для конкретного языка.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...