Лучший способ использовать большой CSV-файл в качестве поиска для заполнения данных в DataFrame - PullRequest
0 голосов
/ 14 января 2020

У меня есть DataFrame со столбцом, который необходимо заполнить значениями из большого CSV-файла. Каков наилучший (возможно, эффективный для памяти и вычислений) способ загрузки в файл csv и объединения данных в левом фрейме данных?

Подходы, которые я пробовал / рассматривал:

  1. Загрузка в CSV-файл в качестве DataFrame и использование pandas функций для присоединения: Однако это не удается при загрузке в CSV в память с MemoryError.
  2. Загрузка в CSV-файл в базе данных и используйте запрос левого соединения: я еще не пробовал этот, но я надеюсь избежать MemoryError.

1 Ответ

0 голосов
/ 14 января 2020

Вероятно, подход мог бы использовать dask и особенно dask read_csv .

В любом случае вы можете рассмотреть, как предлагает @jazreal, сохранить его в SQL дБ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...