У меня большой набор данных (около 90 ГБ) для работы. Для каждого часа каждого дня есть файлы данных (с разделителями табуляции), и мне нужно выполнять операции со всем набором данных. Например, получить долю ОС, которые указаны в одном из столбцов. Я попытался объединить все файлы в один огромный файл и выполнить простую операцию подсчета, но она была слишком велика для памяти сервера.
Итак, я думаю, мне нужно выполнить операцию с каждым файлом за раз, а затем сложить в конце. Я новичок в Perl и особенно наивен в вопросах производительности. Как мне сделать такие операции в таком случае.
Например, два столбца файла:
ID OS
1 Windows
2 Linux
3 Windows
4 Windows
Давайте сделаем что-нибудь простое, посчитав долю ОС в наборе данных. Итак, каждый файл .txt содержит миллионы этих строк, и таких файлов много. Что было бы наиболее эффективным способом оперировать целыми файлами.