У меня есть задача, где я должен прочитать большой файл и обработать данные внутри. Каждая строка в файле выглядит так:
CustomerId ItemId Amount Price
Затем мне нужно рассчитать общую стоимость для покупателя, но сначала мне нужно определить самый дорогой приобретенный предмет. Затем я должен вычесть самый дорогой предмет из общей стоимости.
Сначала я могу составить эту таблицу:
CustomerId ItemId Total_Cost
Затем я сортирую таблицу, нахожу наибольшую стоимость и сохраняю ее в переменной.
Тогда я могу сделать эту таблицу:
CustomerId Total_Cost
Тогда я вычту наибольшую стоимость из каждого ряда.
Я чувствую, что это подход грубой силы, и мне было интересно, есть ли более умный и эффективный способ сделать это. Кроме того, мне нужен совет, какую библиотеку использовать. Я не понимаю, какой из них лучше всего подходит для этой проблемы: Spark, Storm, Flume или Akka-Stream.