Мне нужно прочитать слова из файла 10 G и отсортировать их по частоте, как я могу добиться этого наиболее эффективным способом?
Я бы использовал Три
создать хэш, который будет отображать Word -> количество вхождений. Тогда заполните это. После этого конвертируем в массив и сортируем.
Использовать базу данных.
В противном случае вы все равно просто создадите подмножество базы данных.
Пример Hadoop WordCount