Я сомневаюсь, что Apache Spark использует Java-кодирование. я имею
образец файла в виде простого текста, состоящий из пар, разделенных символом табуляции. Примерно так:
** example.txt
1 5
2 7
5 4
**
и я читал несколько книг в Интернете, и они предлагают этот код для создания pairedRDD , используя первый столбец строки в качестве ключа и второй столбец в качестве значения. Поэтому они используют Tuple2 (из Scala).
Но я не могу понять, почему во всех примерах, которые я вижу, создается кортеж, инициализирующий объект со значением в виде строки целом . Потому что ключом является только [0] функции x.split () [0] . и значение кажется целой линией.
Это правильно? или я должен заменить его на x.split () [1] (для значения)?
Код ниже - это то, что я нашел во многих примерах источников в Интернете.
PairFunction<String, String, String> keyData = new PairFunction<String, String, String>() {
public Tuple2<String, String> call(String x) {
return new Tuple2(x.split(” “)[0], x);
}