Как панды read_csv анализируют регулярные выражения? - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть CSV-файл со следующей структурой:

word1|word2|word3,word4,0.20,0.20,0.11,0.54,2.70,0.07,1.75

То есть первый столбец строк (некоторые с заглавной буквы, некоторые нет), разделенные символами '|' и ', '(это обозначает различия в шаблонах ассоциаций), а затем 7 цифр, каждая из которых разделена символом', '.

nb Этот фрейм данных содержит несколько миллионов строк.Я попытался загрузить его следующим образом:

pd.read_csv('pattern_association.csv',sep= ',(?!\D)', engine='python',chunksize=10000)

Я следовал совету, приведенному здесь, чтобы использовать регулярное выражение, которое предназначено для захвата каждого столбца после цифры, но мне нужно такое, чтобы оба выбирали первый столбецкак целая строка и игнорирует запятые между строками, а затем также разбирает 7 столбцов, которые состоят из цифр.

Как я могу получить панды для анализа этого?

Я всегда получаю ошибку,

Возможно, ошибка связана с игнорированием кавычек при использовании разделителя с несколькими символами.

Я пробовал много вариантов, и я использую регулярное выражение, похоже, работаетвне контекста панд на игрушечных выражениях.

Спасибо за любые советы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...