Например, у меня есть массив из 490 000 строк с именем, версией, цветом и, если он доступен в таблице. Как представляется, самый большой размер массива - 120898752 с помощью вопроса о кворе: https://www.quora.com/What-is-the-maximum-length-of-any-list-in-Python
Образцы данных:
name version color available
0 Bigtax 2.2.9 Indigo False
1 Solarbreeze 7.00 Khaki False
2 Toughjoyfax 0.7.1 Turquoise False
3 Otcom 0.95 Indigo False
4 Holdlamis 7.15 Turquoise False
Я хочу, чтобы в финальной таблице были доступны цвета и названия приложений для каждого цвета.
gf = df.groupby (['name', 'color']). Count ()
version available
name color
Aerified Crimson 1 1
Goldenrod 1 1
Green 1 1
Indigo 2 2
Khaki 2 2
Я прочитал, что рекомендуется загрузить данные в 10мб шт. Могу ли я загрузить большой кадр данных в одном большом запросе sql, используя уже преобразованный соединитель python каждый раз, когда мне нужно обновить его на основе исходных данных? Или лучше было бы преобразовать его в Таблицу снежинок в новую таблицу?
В целом в течение года я планирую добавлять версии и цвета приложений примерно 4 раза в квартал.