Как прочитать файл последовательности, созданный заданием Java MR в Pyspark? - PullRequest
0 голосов
/ 15 февраля 2019

У меня есть задание MR, которое создает файл последовательности с ключом в качестве экземпляра java-класса MyJavaKey, а значением является другой объект java RecordInfo.

Мне нужно использовать задание pySpark, чтобыпрочитайте этот файл на python.

Возможно ли это вообще?Как бы я прочитал эти два Java-объекта в pySpark?Кроме того, как бы я получить доступ к полям объекта в Python?Требуется ли какое-либо сопоставление от объекта Java до Python?

РЕДАКТИРОВАТЬ:

Этот вопрос не является дубликатом Чтение файла последовательности в PySpark 2.0 , поскольку он дает простой пример класса Text, который является записываемым классом, который поставляется из коробки в Hadoop.Однако в этом случае ключ и значение файла последовательности являются пользовательскими классами Java.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...