Ниже приведен мой поток:
GetFile > ExecuteSparkInteractive > PutFile
Я хочу прочитать файлы с GetFile
процессора на ExecuteSparkInteractive
процессоре, применить некоторые преобразования и поместить его в определенное место.Ниже мой поток
Я написал spark scala code
в секции code
искрового процессора:
val sc1=sc.textFile("local_path")
sc1.foreach(println)
В потоке ничего не происходит.Итак, как я могу читать файлы в процессоре спарк, используя процессор GetFile.
2-я часть:
Я попробовал нижеследующий поток только для практики:
ExecuteScript > PutFile > LogMessage
, и я упомянул ниже код в процессоре исполняемого сценария:
readFile = open("/home/cloudera/Desktop/sample/data","r")
for line in readFile:
lines = line.strip()
finalline = re.sub(pattern='((?<=[0-9])[0-9]|(?<=\.)[0-9])',repl='X',string=lines)
readFile = open("/home/cloudera/Desktop/sample/data","w")
readFile.write(finalline)
Код работает нормально, но он не записывает отформатированные данные в папку назначения.Так, где я иду здесь не так?Кроме того, я установил панд на локальный компьютер и запустил код панд из процессора исполняемого сценария, но nifi не читает модуль панд.Почему это так ?Я старался изо всех сил.Кроме того, я не мог найти соответствующие ссылки для этого, где я могу получить основной поток