У меня есть документ в python, который я читаю следующим образом:
tokens = re.findall('\w+', doc) # Note that \w+ splits hyphenated words
for token in tokens:
Проблема в том, что я могу искать простые слова (например, «бананы», но не фразы) например, "желтые бананы"). Как мне изменить свой код, чтобы иметь возможность искать фразы поверх простых слов?
Похоже, мне почему-то нужно читать весь файл как строку, а не разбивать его на слова по словам?