создать DataSet <Row>из набора данных, созданного чтения из сокета (Spark Java) - PullRequest
0 голосов
/ 22 января 2020

В Spark Streaming, когда источником ввода является файл CSV, и я читаю его через сокет (Java), Dataset<Row> создается только со столбцом string, а значение каждой строки содержит каждую отправленную строку через сокет.

Когда я знаю формат каждой строки, например, первые два значения строки csv Strings, следующее - integer и т. д., можно объявить мою схему и создать еще одну Dataset<Row> на основе этой схемы и соответственно разместить данные?

Заранее спасибо.

1 Ответ

0 голосов
/ 22 января 2020

Прежде всего, если это csv, я не вижу смысла использовать для этого искровую потоковую передачу. Это будут гисторические данные, данные не меняются. Поэтому вам следует использовать spark sql только для чтения и обработки csv.

Вы можете создать свою схему с помощью создания типов данных StructField и decalre.

...