Я пытаюсь импортировать очень большой CSV-файл (более 25 миллионов строк) в python с использованием pandas dataframe.
Фрейм данных имеет следующие столбцы:
- dest_profile
- имя
- Фамилия
- Я бы
- против
- название компании
Иногда в названии компании указывается '\' (например, HPE \ HPI), и это вызывает ошибку импорта. Я добавил error_bad_lines = False в мой код pd.read_csv . Однако я хочу импортировать и эти строки.
Как мне пропустить \ в столбце название компании?
import pandas as pd
import numpy as np
df_1st_conns = pd.read_csv("D:\Downloads\LinkedIn\DataV2\1st_degree_nbrs.csv", error_bad_lines=False)
Он думает, что \ является разделителем столбцов Вот сообщение об ошибке.
b'Skipping line 22813: expected 6 fields, saw 7\nSkipping line 62807: expected 6 fields, saw 7\n'
b'Skipping line 152688: expected 6 fields, saw 7\nSkipping line 170013: expected 6 fields, saw 7\nSkipping line 222565: expected 6 fields, saw 7\nSkipping line 222644: expected 6 fields, saw 7\nSkipping line 240790: expected 6 fields, saw 7\n'