Подсчет строк CSV с помощью Spark-Java - PullRequest
0 голосов
/ 01 декабря 2019

У меня есть Java-код (Java 8), и я играю в среде CentOS. Я установил Apache Spark (v 1.6.0) и Hadoop. Я импортировал CSV-файл в формате hdf, и я хочу считать строки CSV с помощью Spark. Но я получил исключение unknownhostexception в моем коде, в строке for. В частности, ошибка java.net.UnkownHostException: пользователь . Это отдельное развертывание, и я использую Cloudera Quickstart 5.13 vm centos.

    package com.bigdata.application;

    import org.apache.spark.SparkConf;
    import org.apache.spark.api.*;

    public class SparkOperations{

        public boolean firstOperation(){
            String csv_file_name = "hdfs://user//cloudera//fares.csv";
            JavaSparkContext jsc = new JavaSparkContext(new SparkConf().setAppName("FirstOp").setMaster("local"));
            JavaRDD<String> csvData = jsc.textFile(csv_file_name);

            JavaRDD<String> lines  = csvData.flatMap(s -> Arrays.asList(s.split(",")));
            for(String words:lines.collect()){
                System.out.println("-> " + words);
            }
        }

        public static void main(String args[]){
            new SparkOperations().firstOperation();
        }
     }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...