Чтение файлов из HDFS с помощью Scala и создание RDD с ним - PullRequest
0 голосов
/ 27 апреля 2018

Я пытаюсь загрузить некоторые файлы в HDFS с использованием Scala.

Тем не менее, я получаю ту же ошибку при попытке загрузить его.

Расположение файлов HDFS: hdfs/test/dir/text.txt

(я получил больше файлов в / dir)

Мой код:

// Spark Packages
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

// Initializing Spark
val conf = new SparkConf().setAppName("training").setMaster("master")
new SparkContext(conf)

// Read files from HDFS and convert to RDD.
val rdd = sc.textFile("/test/dir/*")

Моя ошибка:

18/04/29 05:44:30 INFO storage.MemoryStore: ensureFreeSpace(280219) called with curMem=301375, maxMem=257918238
18/04/29 05:44:30 INFO storage.MemoryStore: Block broadcast_1 stored as values in memory (estimated size 273.7 KB, free 245.4 MB)
18/04/29 05:44:31 INFO storage.MemoryStore: ensureFreeSpace(21204) called with curMem=581594, maxMem=257918238
18/04/29 05:44:31 INFO storage.MemoryStore: Block broadcast_1_piece0 stored as bytes in memory (estimated size 20.7 KB, free 245.4 MB)
18/04/29 05:44:31 ERROR actor.OneForOneStrategy: 
java.lang.NullPointerException
    at org.apache.spark.storage.BlockManagerMasterActor.org$apache$spark$storage$BlockManagerMasterActor$$updateBlockInfo(BlockManagerMasterActor.scala:359)
    at org.apache.spark.storage.BlockManagerMasterActor$$anonfun$receiveWithLogging$1.applyOrElse(BlockManagerMasterActor.scala:75)
    at scala.runtime.AbstractPartialFunction$mcVL$sp.apply$mcVL$sp(AbstractPartialFunction.scala:33)
    at scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:33)
    at scala.runtime.AbstractPartialFunction$mcVL$sp.apply(AbstractPartialFunction.scala:25)
    at org.apache.spark.util.ActorLogReceive$$anon$1.apply(ActorLogReceive.scala:53)
    at org.apache.spark.util.ActorLogReceive$$anon$1.apply(ActorLogReceive.scala:42)
    at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:118)
    at 

и более ...

Как я могу решить это? Или это потому, что мой синтаксис неправильный?

Заранее большое спасибо.

1 Ответ

0 голосов
/ 29 апреля 2018

Удаление следующего позволило мне запустить код:

// Initializing Spark
val conf = new SparkConf().setAppName("training").setMaster("master")
new SparkContext(conf)
...