У меня есть CSV-файл со следующей структурой:
word1|word2|word3,word4,0.20,0.20,0.11,0.54,2.70,0.07,1.75
То есть первый столбец строк (некоторые с заглавной буквы, некоторые нет), разделенные символами '|
' и ',
'(это обозначает различия в шаблонах ассоциаций), а затем 7 цифр, каждая из которых разделена символом', '.
nb Этот фрейм данных содержит несколько миллионов строк.Я попытался загрузить его следующим образом:
pd.read_csv('pattern_association.csv',sep= ',(?!\D)', engine='python',chunksize=10000)
Я следовал совету, приведенному здесь, чтобы использовать регулярное выражение, которое предназначено для захвата каждого столбца после цифры, но мне нужно такое, чтобы оба выбирали первый столбецкак целая строка и игнорирует запятые между строками, а затем также разбирает 7 столбцов, которые состоят из цифр.
Как я могу получить панды для анализа этого?
Я всегда получаю ошибку,
Возможно, ошибка связана с игнорированием кавычек при использовании разделителя с несколькими символами.
Я пробовал много вариантов, и я использую регулярное выражение, похоже, работаетвне контекста панд на игрушечных выражениях.
Спасибо за любые советы.