У меня есть файл SQLite с двумя таблицами.Одна из этих таблиц довольно большая, но когда я использую pd.read_sql_table
для этого, df.info()
дает только использование памяти ~ 4 ГБ.Другая таблица использует еще меньше памяти.
Однако, когда я пытаюсь объединить эти две таблицы в два столбца с помощью запроса SQL, а затем прочитать полученный запрос с помощью панд через pd.read_sql_query
, я получаю много пользыгораздо больше памяти и еще медленнее.
query = '''SELECT col1,col2,col3,col4,col5,col6,colC FROM
(SELECT * FROM table1 INNER JOIN table2 on (table1.col1 = table2.colA AND table1.col2 = table2.colB)'''
df = pd.read_sql_query(query)
Я нахожу это удивительным, так как думал, что работа через SQL будет быстрее.Это так, как я это делаю, или это может быть машинно-зависимая проблема?