Разбиение текста на слова в python - PullRequest
0 голосов
/ 23 мая 2018

При подготовке данных (текстового файла) к предварительной обработке.Я не могу разбить текстовый файл на слова.

import io
f = io.open("pg5200.txt", mode="r", encoding="utf-8")
text = f.read()
f.close()

import re
words = re.split(r'\W+', text)
print(words[:100])

После использования приведенного выше кода: Проблема в том, что я получаю дополнительный пробел ("") в начале.

Могу ли я узнать, почему возникает такое дополнительное пространство и как его удалить ??

Спасибо

1 Ответ

0 голосов
/ 23 мая 2018

Вы можете использовать функцию strip.

Проверить этот ответ Как мне обрезать пробелы?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...