Я пытаюсь реализовать токенизатор для разделения строки слов.
У меня есть особые условия: разделительная пунктуация. ! ? в отдельную строку и разбить все символы, в которых есть пробел, например I have a dog!'-4@
-> 'I', 'have', 'a' , 'dog', !, "'-4@"
Примерно так .....
Я не планирую пытаться пакет nltk, и я посмотрел на re.split
и re.findall
, но для обоих случаев: re.split
= Я не знаю, как выделить слова с пунктуацией рядом с ними, такие как 'Dog,' re.findall
= Конечно, он распечатывает все совпадающие строки, но как насчет непревзойденных?
Если у вас, ребята, есть какие-либо предложения, я был бы очень рад их попробовать.