Чтение столбцов из файла CSV, похоже, не работает - PullRequest
0 голосов
/ 10 мая 2018

У меня есть .csv набор данных новостных статей, которые (должны иметь) столбцы публикации, даты, заголовка и т. Д. Когда я открываю этот файл с помощью Numbers, он отлично показывает это, учитывается каждый столбец.Однако, когда я пытаюсь использовать файл в Jupyter Notebook, столбцы не работают должным образом.Вот что у меня есть:

%matplotlib inline
import matplotlib
import numpy as np
import matplotlib.pyplot as plt

import pandas as pd

data = pd.read_table("filename.csv",encoding="utf-8")

data.columns #and 

, тогда оно дает мне:

Index(['SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT'], dtype='object')

Открытие файла в Microsoft Excel дает мне ту же проблему;каждому столбцу присвоено имя:

SEARCH_ROW,PUBLICATION,DATE,TITLE,EDITION,BYLINE,LANGUAGE,SECTION,JOURNAL-CODE,NYT,PUBLICATION-TYPE,LENGTH,LOAD-DATE,TEXT

Есть ли какой-нибудь способ разделить этот один большой столбец на исходную форму с несколькими столбцами?

Ответы [ 2 ]

0 голосов
/ 10 мая 2018

вы можете использовать:

data = np.genfromtxt('filename.csv', delimiter=',')
0 голосов
/ 10 мая 2018

pd.read_table (...) использует tab ('\t') в качестве разделителя по умолчанию.

Поэтому попробуйте явно указать запятую в качестве разделителя:

pd.read_table(filename, sep=',')

или используйте pd.read_csv () , который использует запятую в качестве спаратора по умолчанию

...