У меня есть задание MR, которое создает файл последовательности с ключом в качестве экземпляра java-класса MyJavaKey
, а значением является другой объект java RecordInfo
.
Мне нужно использовать задание pySpark, чтобыпрочитайте этот файл на python.
Возможно ли это вообще?Как бы я прочитал эти два Java-объекта в pySpark?Кроме того, как бы я получить доступ к полям объекта в Python?Требуется ли какое-либо сопоставление от объекта Java до Python?
РЕДАКТИРОВАТЬ:
Этот вопрос не является дубликатом Чтение файла последовательности в PySpark 2.0 , поскольку он дает простой пример класса Text
, который является записываемым классом, который поставляется из коробки в Hadoop.Однако в этом случае ключ и значение файла последовательности являются пользовательскими классами Java.