Как передать спарк rdd в python и вернуть rdd обратно из python - PullRequest
1 голос
/ 30 сентября 2019

Вот мой код в файле scala

val data = List("cdn.resized-images.covethome.com")
val dataRDD = sc.makeRDD(data)
val scriptPath = "/Users/hareshbhuriya/Documents/final-python-integration/web_domain_cleansing.py"
val result = dataRDD.pipe(scriptPath)

Я читаю эту строку из файла Python, используя

for line in sys.stdin:
    output = sample_function(line)
    print(output)

, здесь вывод из файла Python - pandas dataFrame, и я хочуполучите его в файле scala, откуда я вызвал функцию канала.

Вместо передачи line в качестве параметра в sample_function, если я передаю строку как cdn.resized-images.covethome.com, я получаю вывод по желанию.

Вот так

for line in sys.stdin:
    output = sample_function("cdn.resized-images.covethome.com")
    print(output)

Но я хочу передать строку динамически. Как мне обрабатывать / манипулировать строкой из sys.stdin? Пожалуйста, помогите

1 Ответ

0 голосов
/ 03 октября 2019

Мне нужно использовать line.rstrip(), тогда все прекрасно работает. Спасибо.

...