Мне дали задание написать веб-приложение, которое анализирует текстовые файлы с использованием одного регулярного выражения.Размер текстовых файлов от 500 МБ до 3 ГБ.В настоящее время я использую Perl в качестве движка для разбора.Я читал о mapReduce и Hadoop, но похоже, что установка того стоит, учитывая очень, очень большие объемы данных, намного превышающие объемы, которые я анализирую.
Какой хороший способ это сделать?В настоящее время анализ файла 500 МБ занимает от 4 до 6 минут, что не так уж и плохо, но файлы 3 ГБ занимают вечность, и веб-сервер обычно останавливается, прежде чем он сможет получить выходные данные из сценария Perl и сгенерировать отчет.