У меня есть файл данных CSV 500+ МБ.Мой вопрос заключается в том, что было бы быстрее для манипулирования данными (например, чтения, обработки), если бы Python MySQL клиент был бы быстрее, поскольку вся работа отображается в SQL-запросах, а оптимизация оставлена оптимизатору.Но в то же время Pandas имеет дело с файлом, который должен быть быстрее, чем общение с сервером?
Я уже проверил рабочие процессы "Большие данные" с использованием панд , Лучшие практики для импорта больших файлов CSV , Самый быстрый способ написать большой CSV с Python и Самый эффективный способ анализа большого .csv в python? .Тем не менее, я не нашел никакого сравнения в отношении Pandas и MySQL.
Вариант использования:
Я работаю над набором текстовых данных, который состоит из 1 737 123 строк и 8 столбцов.Я передаю этот набор данных в сеть RNN / LSTM.Я делаю некоторую предварительную обработку перед подачей, которая кодирует, используя настроенный алгоритм кодирования.
Подробнее
У меня есть 250+ экспериментов и 12 архитектур (дизайн разных моделей).
Я запутался, мне что-то не хватает.