У меня есть файл .txt с разделителями табуляцией, который я пытаюсь импортировать в фрейм данных в Python того же формата, что и текстовый файл, как показано ниже:
ham TAB Go до точки jurong, сумасшедший .. Доступно только в Bugis N Great World La E фуршет ... Cine там получил amore wat ...
спам TAB Бесплатное участие в 2-х недельных состязаниях, чтобы выиграть финальный матч Кубка Англии 21 мая 2005 года. Отправьте текст FA на номер 87121, чтобы получить вопрос о вступлении (стандартная скорость передачи текста).
...
Обратите внимание, что есть много, много строк из вышеприведенного материала (примерно 5500), которые я хочу передать в Python и сохранить то же форматирование при создании из него матричного массива.
Текущий код, который у меня есть для этого:
import pandas as pd
with open("SMSSpamCollection.txt") as f:
reader = csv.reader(f, delimiter = "\t")
d = list(reader)
d = pd.DataFrame(reader)
Что он немного делает то, что мне нужно, но я хочу DataFrame с 2 столбцами: Y (содержит Ham или спам) и второй X (содержащий сообщение). В это время я получаю [5572,2] DataFrame.