Конечно, вы можете использовать MapReduce (или в идеале Spark), чтобы прочитать файл и обработать его, как вам нужно.
hadoop-streaming
можно было бы запустить awk
, но я сомневаюсь, что есть подробные примеры использования этого против "фактического" кода.