I почти нашел ответ на этот вопрос в этой теме (ответ самплебия);однако мне нужно разбить фразу на слова, цифры, знаки пунктуации и пробелы / табуляции.Мне также нужно это, чтобы сохранить порядок, в котором происходит каждая из этих вещей (что уже происходит в коде этого потока).
Итак, я обнаружил что-то вроде этого:
from nltk.tokenize import *
txt = "Today it's 07.May 2011. Or 2.999."
regexp_tokenize(txt, pattern=r'\w+([.,]\w+)*|\S+')
['Today', 'it', "'s", '07.May', '2011', '.', 'Or', '2.999', '.']
Но вот список, который мне нужно получить:
['Today', ' ', 'it', "'s", ' ', '\t', '07.May', ' ', '2011', '.', ' ', 'Or', ' ', '2.999', '.']
Regex всегда был одной из моих слабых сторон, поэтому после нескольких часов исследований я все еще в тупике.Спасибо !!