Apache Spark потоковое большое количество текстовых файлов CSV с заголовком, содержащим важную информацию - PullRequest
0 голосов
/ 07 сентября 2018

Мне нужно передать большое количество csv файлов в качестве источника, каждый из которых содержит заголовок, содержащий важную информацию для классификации остальных данных, которые следуют.

Каков наилучший способ создать потоковое решение, которое будет включать данные заголовка для каждой строки, которая следует в системе распределенной обработки apache spark?

Проблема может заключаться в том, что заголовок может быть подхвачен любым из исполнителей в случае разделения обработки файла.

1 Ответ

0 голосов
/ 07 сентября 2018

Я бы отделил создание сообщения и обработку сообщения, где сообщение означает комбинацию заголовка и строки, которую вы хотите.

Вы можете использовать Kafka (например, https://github.com/dpkp/kafka-python), чтобы создавать такие сообщения, публиковать их в темах и добавлять их в приложения pyspark для их обработки

...