Преобразование в нижний регистр: каждая буква получает токены - PullRequest
0 голосов
/ 04 декабря 2018

У меня есть текстовый документ, который я хочу преобразовать в нижний регистр, но когда я делаю это следующим образом, каждая буква моего документа токенизируется.Почему это происходит?

with open('assign_1.txt') as g:
    assign_1 = g.read()
assign_new = [word.lower() for word in assign_1]

Что я получаю:

assign_new
['b',
'a',
'n',
'g',
'l',
'a',
'd',
'e',
's',
'h',]

1 Ответ

0 голосов
/ 04 декабря 2018

Вы перебрали весь ввод, по одному символу за раз, опустили каждый в нижний регистр и указали результат в виде списка.Это проще, чем это:

assign_lower = g.read().lower()

Использование переменной «слово» не заставляет вас повторять слова - assign_1 все еще последовательность символов.

Если вы хотите разбитьэто на словах, используйте метод split ... который не зависит от операции в нижнем регистре.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...