Что лучше - преобразовать мои данные перед загрузкой в ​​снежинку или клонировать загруженные данные в нужную таблицу - PullRequest
0 голосов
/ 08 января 2020

Например, у меня есть массив из 490 000 строк с именем, версией, цветом и, если он доступен в таблице. Как представляется, самый большой размер массива - 120898752 с помощью вопроса о кворе: https://www.quora.com/What-is-the-maximum-length-of-any-list-in-Python

Образцы данных:

          name version      color  available
0       Bigtax   2.2.9     Indigo      False
1  Solarbreeze    7.00      Khaki      False
2  Toughjoyfax   0.7.1  Turquoise      False
3        Otcom    0.95     Indigo      False
4    Holdlamis    7.15  Turquoise      False

Я хочу, чтобы в финальной таблице были доступны цвета и названия приложений для каждого цвета.

gf = df.groupby (['name', 'color']). Count ()

                    version  available
name     color                        
Aerified Crimson          1          1
         Goldenrod        1          1
         Green            1          1
         Indigo           2          2
         Khaki            2          2

Я прочитал, что рекомендуется загрузить данные в 10мб шт. Могу ли я загрузить большой кадр данных в одном большом запросе sql, используя уже преобразованный соединитель python каждый раз, когда мне нужно обновить его на основе исходных данных? Или лучше было бы преобразовать его в Таблицу снежинок в новую таблицу?

В целом в течение года я планирую добавлять версии и цвета приложений примерно 4 раза в квартал.

...