При подготовке данных (текстового файла) к предварительной обработке.Я не могу разбить текстовый файл на слова.
import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()
import re
words = re.split(r'\W+', text)
print(words[:100])
После использования приведенного выше кода: Проблема в том, что я получаю дополнительный пробел ("") в начале.
Могу ли я узнать, почему возникает такое дополнительное пространство и как его удалить ??
Спасибо