Разбор .txt с разделителями табуляции в Pandas DataFrame - PullRequest
0 голосов
/ 07 марта 2020

У меня есть файл .txt с разделителями табуляцией, который я пытаюсь импортировать в фрейм данных в Python того же формата, что и текстовый файл, как показано ниже:

ham TAB Go до точки jurong, сумасшедший .. Доступно только в Bugis N Great World La E фуршет ... Cine там получил amore wat ...

спам TAB Бесплатное участие в 2-х недельных состязаниях, чтобы выиграть финальный матч Кубка Англии 21 мая 2005 года. Отправьте текст FA на номер 87121, чтобы получить вопрос о вступлении (стандартная скорость передачи текста).

...

Обратите внимание, что есть много, много строк из вышеприведенного материала (примерно 5500), которые я хочу передать в Python и сохранить то же форматирование при создании из него матричного массива.

Текущий код, который у меня есть для этого:

 import pandas as pd 

 with open("SMSSpamCollection.txt") as f:
      reader = csv.reader(f, delimiter = "\t")
      d = list(reader)
 d = pd.DataFrame(reader)

Что он немного делает то, что мне нужно, но я хочу DataFrame с 2 столбцами: Y (содержит Ham или спам) и второй X (содержащий сообщение). В это время я получаю [5572,2] DataFrame.

1 Ответ

1 голос
/ 07 марта 2020

Как насчет этого:

import pandas as pd 
d = pd.read_csv("SMSSpamCollection.txt", sep="\t", names=['Y','X'])
...