Невозможно импортировать заключенный в кавычки файл в Pandas - PullRequest
0 голосов
/ 14 января 2020

Я пытаюсь импортировать эти данные в Pandas. Он правильно импортирует в Libreoffice с заголовком и 2 строками. Однако в Pandas он, похоже, не импортируется. Внутри есть несколько символов новой строки, которые следует игнорировать. Но в Pandas они обрабатываются как новая строка вместо одного поля с \n внутри. Кто-нибудь сталкивался с такой проблемой. Я попытался установить параметры quotechar и sep в Pandas, но не могу импортировать его.

Заранее спасибо

данные здесь

Это должно быть импортировано как 2 строки в Pandas. Однако он разбивается на несколько строк.

Output in pandas is this

1 Ответ

1 голос
/ 14 января 2020

Ваша проблема в том, что в вашем тексте " есть escape-символ (\"), который панда должна игнорировать.

например

7/20/16: Снижение STS, активное сгибание до 130, отведение до 100, слабая правосторонняя хватка. Отсутствие 6-8 \ " ИК справа, только до талии.

Символ \" после недостатка 6-8 не должен интерпретироваться как символ кавычки.

Вы должны сообщить pandas.

Это должно работать:

import pandas as pd

df = pd.read_csv("resources/data_to_post.csv", quotechar='"', escapechar='\\')
print(df)

Вывести

   id  ...                                      PlanGenerated
0   1  ...  A course of physical therapy was ordered. Mobi...
1   2  ...  The patient is instructed to return if pain or...

[2 rows x 17 columns]

только две строки, а затем 6, как и раньше.

...