Панды read_csv не выводят одинаковые метаданные для похожих файлов - PullRequest
0 голосов
/ 02 декабря 2018

У меня есть 2 файла.Оба файла имеют следующее содержимое:

file1.csv:

label,text,is_valid
negative,"hi there",False
negative,"hello hi",False


file2.csv:

label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
... 1000 such rows

Когда я делаю pd.read_csv('filex.csv') для них и создаю df1, df2, соответствующий file1, file2, я получаю следующее, когда делаю dfx.info()

df1.info ():

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
label       2 non-null int64
text        2 non-null object
is_valid    2 non-null bool
dtypes: bool(1), int64(1), object(1)
memory usage: 114.0+ bytes

df2.info ():

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 450 to 647
Data columns (total 3 columns):
label       1000 non-null object
text        1000 non-null object
is_valid    1000 non-null bool
dtypes: bool(1), object(2)
memory usage: 24.4+ KB

Файл 1 создан мной, Файл 2 получен от кого-то другого.По содержанию они выглядят одинаково, однако, когда над ними выполняется pd.read_csv, df info () для каждого из них различна.Мне нужно передать файлы в библиотеку, которая на них вызовет pd.read_csv('file.csv', heade='infer').Другими словами, я не могу явно указать dtype, etc.Как убедиться, что я могу сгенерировать файл 1 так, чтобы сгенерированный из него df был по формату идентичен сгенерированному df2?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...