НЛП - Отдельные знаки препинания только в начале и конце слова - PullRequest
0 голосов
/ 05 января 2020

Я новичок в НЛП и пытаюсь выполнить базовые c этапы предварительной обработки во время обучения. Я пытаюсь разделить знаки препинания в начале и конце слов для встраивания. При этом я не хочу портить такие слова, как can't, I'm и др. c. потому что я обрабатываю их отдельно.

s = 'This is what I'm trying to do, but I can't figure out how.'

Желаемый вывод:

s_separated = 'This is what I'm trying to do , but I can't figure out how .'

1 Ответ

1 голос
/ 05 января 2020

Попробуйте:

import re

str = "This is what I'm trying to do, but I can't figure out how."
res = re.sub(r'(?<=\w)(?=[,.!;:])', ' ', str)
print res

Демонстрация и объяснение

...