Как лемматизировать строку, содержащую цифры и специальные символы? - PullRequest
0 голосов
/ 08 ноября 2019

Мне нужно лемматизировать строки, содержащие цифры и буквенно-цифровые символы. Пример:

'strawberries1234!@ apples123@'

Мне также нужно сохранить эти специальные символы и цифры. Таким образом, вывод для приведенного выше примера будет:

'strawberry1234!@ apple123@'

Мне нужно сделать это для большого набора данных, поэтому код должен быть максимально эффективным.

Спасибо.

1 Ответ

0 голосов
/ 08 ноября 2019

Серьезно, это кажется простым и не требует дальнейшей проработки задачи. Используйте регулярное выражение, чтобы удалить все последовательности специальных символов на основе символов, что означает, что вы не просто используете их (sub), но находите индексы. извлечь оставшуюся строку, используя индексы, которые будут остаточными английскими словами. Лемматизируем это (лемматизация - это процесс удаления суффиксов на английском языке, означающий, что строковые элементы в правом конце строки удаляются. (В других языках вы можете использовать инфиксы (xx-y-xx) и обрезание (y1-)xx-y2), что может потребовать более сложных строковых операций). После этого просто объедините подстроки со специальными символами снова с результатом лемматизации.

...