У меня большой текстовый файл, который содержит просмотры страниц некоторых проектов Викимедиа. (Вы можете найти его здесь , если вы действительно заинтересованы). Каждая строка, разделенная пробелом, содержит статистику для одной страницы Викимедиа. Схема выглядит следующим образом: <project code> <page title> <num hits> <page size>
В Scala, используя Spark RDD или Dataframes, I w sh для вычисления общего количества обращений для каждого проекта на основе кода проекта. Так, например, для проектов с кодом «zw» я хотел бы найти все строки, начинающиеся с кода проекта «zw», и сложить их совпадения. Очевидно, это должно быть сделано для всех кодов проекта одновременно.
Я рассмотрел такие функции, как aggregateByKey et c, но примеры, которые я обнаружил, не go достаточно подробно, особенно для файла с 4 поля. Я полагаю, что это какая-то работа MapReduce, но как ее реализовать, мне не под силу.
Любая помощь будет принята с благодарностью.