У меня есть временной ряд в большом текстовом файле.
Этот файл больше 4 ГБ.
Поскольку это временной ряд, я хотел бы прочитать только 1% строк.
Желаемый минималистский пример:
df = pandas.read_csv('super_size_file.log',
load_line_percentage = 1)
print(df)
желаемый вывод:
>line_number, value
0, 654564
100, 54654654
200, 54
300, 46546
...
Я не могу выполнить повторную выборку после загрузки, поскольку для ее загрузки требуется слишком много памяти.
Я могу захотеть загрузить чанк по чанку и заново сэмплировать каждый чанк. Но это кажется мне неэффективным.
Любые идеи приветствуются. ;)