Панды и «двойная двойная кавычка» в CSV - PullRequest
0 голосов
/ 12 октября 2018

Иногда данные в формате CSV форматируются следующим образом

col1,col2,col3
a,b,"this field has an embedded quote character ("") in it"

, который предназначен для анализа как

col1 | col2 | col3
a    | b    | this field has an embedded quote character (") in it

То есть символ цитирования поля экранируется путем удвоения его.

Модуль Python csv.reader прекрасно с этим справляется, если csv.Dialect.doublequote равен True.

Как это можно сделать в Pandas?

1 Ответ

0 голосов
/ 12 октября 2018

Примечание: я нашел ответ еще до того, как закончил публиковать

Использование pd.read_csv(..., doublequote=True)

import csv
import pandas as pd

data = pd.read_csv('data.csv', quotechar='"', doublequote=True, quoting=csv.QUOTE_NONNUMERIC)

замена QUOTE_NONNUMERIC на QUOTE_MINIMAL,или что-то еще, в зависимости от ситуации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...