Объединение через pandas и Join через использование памяти SQL и скорость - PullRequest
0 голосов
/ 24 мая 2018

У меня есть файл SQLite с двумя таблицами.Одна из этих таблиц довольно большая, но когда я использую pd.read_sql_table для этого, df.info() дает только использование памяти ~ 4 ГБ.Другая таблица использует еще меньше памяти.

Однако, когда я пытаюсь объединить эти две таблицы в два столбца с помощью запроса SQL, а затем прочитать полученный запрос с помощью панд через pd.read_sql_query, я получаю много пользыгораздо больше памяти и еще медленнее.

query = '''SELECT col1,col2,col3,col4,col5,col6,colC FROM
            (SELECT * FROM table1 INNER JOIN table2 on (table1.col1 = table2.colA AND table1.col2 = table2.colB)'''
df = pd.read_sql_query(query)

Я нахожу это удивительным, так как думал, что работа через SQL будет быстрее.Это так, как я это делаю, или это может быть машинно-зависимая проблема?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...