Spark структурированный поток с дискретными наборами данных - PullRequest
0 голосов
/ 08 мая 2019

При чтении и экспериментировании может показаться, что операции в масштабе данных, такие как агрегация, влияют на всю таблицу, а не только на строки, поступающие в обрабатываемое событие.

У меня есть требование, где я хочу получитьданные о событии и относиться к кадру данных дискретно.То есть я просто хочу, чтобы все мои операции выполнялись с этими данными.

Точнее говоря, я хочу, чтобы моя записная книжка выполняла роль сервера, получающего запросы от одного или нескольких клиентов, и обрабатывала только данные, отправленные этим клиентом, ивернуть результаты обратно к ним.

Я ошибаюсь, если предположить, что это невозможно с потоковой передачей?Я вижу, что есть функция foreachBatch, которую вы можете вызвать на писателя.Это выглядит так, как будто может работать, но нет примеров того, как вернуть преобразованный фрейм данных, все они вращаются вокруг записи данных.

Другой вариант, возможно, заключается в реализации приема через сокет.или событие зацикливается в ячейке и принимает запросы таким образом, но это выглядит немного странно.

Так что, я думаю, мой вопрос в том, что с помощью Spark (Databricks) есть возможность позволить вашей записной книжке получать запросы через некоторыезначит и вы обрабатываете и отвечаете только используя эти данные?

...