CSV - это формат хранения, ориентированный на строки.Документация Pandas гласит, что уменьшение количества столбцов, которые должны быть прочитаны с использованием параметра usecols
в методе read_csv
, происходит быстрее, чем чтение всего файла.В файле хранения, ориентированном на строки, как в реляционных базах данных, ориентированных на строки, считываются целые строки, даже когда мы выбираем подмножество столбцов.Теперь это может привести к снижению использования памяти, но как это приведет к сокращению времени разбора, поскольку время поиска диска должно оставаться неизменным?