У меня есть Java-код (Java 8), и я играю в среде CentOS. Я установил Apache Spark (v 1.6.0) и Hadoop. Я импортировал CSV-файл в формате hdf, и я хочу считать строки CSV с помощью Spark. Но я получил исключение unknownhostexception в моем коде, в строке for. В частности, ошибка java.net.UnkownHostException: пользователь . Это отдельное развертывание, и я использую Cloudera Quickstart 5.13 vm centos.
package com.bigdata.application;
import org.apache.spark.SparkConf;
import org.apache.spark.api.*;
public class SparkOperations{
public boolean firstOperation(){
String csv_file_name = "hdfs://user//cloudera//fares.csv";
JavaSparkContext jsc = new JavaSparkContext(new SparkConf().setAppName("FirstOp").setMaster("local"));
JavaRDD<String> csvData = jsc.textFile(csv_file_name);
JavaRDD<String> lines = csvData.flatMap(s -> Arrays.asList(s.split(",")));
for(String words:lines.collect()){
System.out.println("-> " + words);
}
}
public static void main(String args[]){
new SparkOperations().firstOperation();
}
}