У меня есть 2 файла.Оба файла имеют следующее содержимое:
file1.csv:
label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
file2.csv:
label,text,is_valid
negative,"hi there",False
negative,"hello hi",False
... 1000 such rows
Когда я делаю pd.read_csv('filex.csv')
для них и создаю df1, df2
, соответствующий file1, file2, я получаю следующее, когда делаю dfx.info()
df1.info ():
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
label 2 non-null int64
text 2 non-null object
is_valid 2 non-null bool
dtypes: bool(1), int64(1), object(1)
memory usage: 114.0+ bytes
df2.info ():
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 450 to 647
Data columns (total 3 columns):
label 1000 non-null object
text 1000 non-null object
is_valid 1000 non-null bool
dtypes: bool(1), object(2)
memory usage: 24.4+ KB
Файл 1 создан мной, Файл 2 получен от кого-то другого.По содержанию они выглядят одинаково, однако, когда над ними выполняется pd.read_csv, df info () для каждого из них различна.Мне нужно передать файлы в библиотеку, которая на них вызовет pd.read_csv('file.csv', heade='infer')
.Другими словами, я не могу явно указать dtype, etc
.Как убедиться, что я могу сгенерировать файл 1 так, чтобы сгенерированный из него df был по формату идентичен сгенерированному df2?