Question

Мне нужно передать большое количество csv файлов в качестве источника, каждый из которых содержит заголовок, содержащий важную информацию для классификации остальных данных, которые следуют.

Каков наилучший способ создать потоковое решение, которое будет включать данные заголовка для каждой строки, которая следует в системе распределенной обработки apache spark?

Проблема может заключаться в том, что заголовок может быть подхвачен любым из исполнителей в случае разделения обработки файла.

Jorge Lavín · Answer 1 · 07 сентября 2018

Я бы отделил создание сообщения и обработку сообщения, где сообщение означает комбинацию заголовка и строки, которую вы хотите.

Вы можете использовать Kafka (например, https://github.com/dpkp/kafka-python), чтобы создавать такие сообщения, публиковать их в темах и добавлять их в приложения pyspark для их обработки

Apache Spark потоковое большое количество текстовых файлов CSV с заголовком, содержащим важную информацию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Apache Spark потоковое большое количество текстовых файлов CSV с заголовком, содержащим важную информацию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы