Каковы лучшие показатели между pandas и csv.reader в python? - PullRequest
0 голосов
/ 31 октября 2019

Я работаю над дампом Stackoverflow, чтобы восстановить репутацию пользователя за определенный период. Для этого мне нужно прочитать некоторые CSV-файлы, а затем получить доступ к полям этих CSV-файлов. Имея, например, файл 10 миллионов строк и 13 столбцов, какое решение я должен выбрать, чтобы ускорить чтение между read_csv из pandas и csv.reader? Мало того, что при наличии узкого места в доступе к жесткому диску и параллельном запуске нескольких экземпляров алгоритма (многопроцессорная обработка), что рекомендуется сделать для повышения производительности? Лично я нашел замечательное улучшение, сохранив файлы на ssd, но, несомненно, это можно сделать лучше.

...