Как читать файлы Hadoop с помощью Apache Beam? - PullRequest
0 голосов
/ 25 апреля 2018

Я пытаюсь читать файлы с помощью Apache Beam на сервере Hadoop (не локальном). Проблема в том, как я могу это сделать? Я прочитал кое-что о формате ввода-вывода Hadoop с помощью Beam:

https://beam.apache.org/documentation/io/built-in/hadoop/

Я не очень хорошо понимаю эту часть:

Configuration myHadoopConfiguration = new Configuration(false);
THIS --> // Set Hadoop InputFormat, key and value class in configuration <-- THIS
myHadoopConfiguration.setClass("mapreduce.job.inputformat.class", 
InputFormatClass,
InputFormat.class);
myHadoopConfiguration.setClass("key.class", InputFormatKeyClass, Object.class);
myHadoopConfiguration.setClass("value.class", InputFormatValueClass, Object.class);

Как мне установить этот формат? Нужно ли создавать классы? Потому что этот код не работает, если я с / п. Спасибо

1 Ответ

0 голосов
/ 25 апреля 2018

Стандартным форматом ввода по умолчанию является TextInputFormat, что extends FileInputFormat<LongWritable,Text>

Он читает Long значения в виде байтовых смещений в файлах. import org.apache.hadoop.io.LongWritable

И Text значения в виде единичных линий. import org.apache.hadoop.io.Text

Этот код не работает, потому что InputFormatClass, InputFormatKeyClass или InputFormatValueClass не являются фактическими переменными

...