Загрузка текстовых данных в python и создание матрицы - PullRequest
0 голосов
/ 30 мая 2018

скажем, у меня есть текстовый файл в формате, аналогичном этому

В: Здравствуйте, как вас зовут?A: Привет, меня зовут Джон Смит

, и я хочу создать такую ​​матрицу, чтобы в этом случае она была 2xn

[['hello', 'what', 'is',ваше ',' имя ','? ',' '], [' привет ',' мое ',' имя ',' есть ',' Джон ',' Смит ']]

обратите внимание, чтоВ первой строке есть пустая запись, поскольку в ней 6 строк, а во второй - 7 строк

1 Ответ

0 голосов
/ 30 мая 2018

Вы можете использовать re.split:

import re
file_data = open('filename.txt').read()
results = filter(None, re.split('A:\s|Q:\s', file_data))
new_results = [re.findall('\w+|\W', i) for i in results]

Выход:

[['hello', ' ', 'what', ' ', 'is', ' ', 'your', ' ', 'name', '?', ' '], ['Hi', ' ', 'my', ' ', 'name', ' ', 'is', ' ', 'John', ' ', 'Smith']]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...