потоковая передача файлов eml из папки с помощью spark - PullRequest
0 голосов
/ 14 марта 2019

Надеюсь, у тебя все хорошо.

В настоящее время мы работаем над проблемой, когда нам нужно передать поток файлов eml. Читайте каждый eml отдельно, а затем конвертируйте его в формат json, одновременно используя распределенную обработку apark.

При этом мы получаем DStream и пытаемся извлечь из него RDD, но застряли в поиске того, как объединить все rdd одного и того же файла для преобразования в json. Может быть, проблема, которую мы пытаемся решить, когда ограничение чтения полного файла, в отличие от искры, учитывая его распределенную модель. С другой стороны, мы пробуем логику, чтобы как-то заставить вещи работать, поэтому есть оптимизированный анализ. Любая помощь по этому поводу высоко ценится.

PS: Мы вытолкнули json из папки и через определение схемы можем получить каждый файл в виде отдельной записи. Подумываете, можно ли сделать то же самое для файлов eml?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...