Входным файлом для моего задания hadoop M / R является текстовый файл, в котором записи разделены символом табуляции '\ t' вместо новой строки '\ n'.Как я могу дать команду hadoop разделить, используя символ табуляции, так как по умолчанию он разделяется вокруг новых строк, и каждая строка в текстовом файле берется как запись.
Один из способов сделать это - использовать пользовательский класс формата вводакоторый использует фильтр потока для преобразования всех вкладок в исходном потоке в новые строки.Но это не выглядит элегантно.
Другой способ - использовать java.util.Scanner
с табуляцией в качестве разделителя.Но я не могу понять, как использовать класс java.util.Scanner
в классах входного формата.
Каков наилучший подход и альтернативы?