Обработка сложного импорта CSV / плоских файлов с разделителями каналов в формате Python с использованием Pandas - PullRequest
0 голосов
/ 07 мая 2020

Я искал stackoverflow, но не нашел похожей проблемы - заранее извините, если она существует.

Я пытаюсь импортировать большой символ "|" отдельный CSV-файл с 7 столбцами.

Проблема в том, что некоторые столбцы данных содержат свободный текст, который в некоторых случаях также может содержать дополнительные каналы. Это вызывает ошибку в сотнях строк, как и следовало ожидать, в моем случае 7 столбцов, но он видит 8, 9, 10 строк.

Приведенный ниже код пропустит необычные строки и импортирует остальные файла, но это не помогает, так как нам нужны все строки.

import pandas as pd
fileImport = pd.read_csv('myfile.csv', sep="|", error_bad_lines=False, encoding = "ISO-8859-1")

Есть ли очевидный трюк для обработки этих необычных / раздражающих строк?

Пример такой строки:

11111|2222|2000-11-01 00:00:00|AAAA.|Alcohol use disorder identificatn test|XXXXXX||An overall total score of less than 5 is negative||How often: Monthly or less||How many: 3 - 4||6 or more units: Never||Date: Unknown|||

Кажется, что отдельные элементы данных в столбце дополнительно инкапсулируются трубами:

|An overall total score of less than 5 is negative||How often: Monthly or less||How many: 3 - 4||6 or more units: Never||Date: Unknown|
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...