У меня есть работа Spark, которая записывает, что потенциально может быть очень большим набором SparseVector
, который я собираюсь использовать для обучения автоэнкодеру (для приложения совместной фильтрации). Я использую Keras, который, кажется, только принимает данные NumPy. Я посмотрел на тренировку модели Keras на Spark с использованием Elephas, но, к сожалению, кажется, есть ряд ошибок, которые не позволяют сделать это возможным в данный момент. Типичная строка данных (в текстовом файле) может выглядеть так:
{"user":"123","movies":["Alien", "A Beautiful Mind", "Jaws", "Minority Report"],"embeddings":{"type":0,"size":27209,"indices":[7,135,16754,23658],"values":[1.0,1.0,1.0,1.0]}}
Нужно ли мне писать собственный анализатор JSON на Python для обработки чтения данных такого рода в Keras / NumPy?