Чтение в Spark-сериализованном SparseVector в NumPy - PullRequest
0 голосов
/ 18 сентября 2018

У меня есть работа Spark, которая записывает, что потенциально может быть очень большим набором SparseVector, который я собираюсь использовать для обучения автоэнкодеру (для приложения совместной фильтрации). Я использую Keras, который, кажется, только принимает данные NumPy. Я посмотрел на тренировку модели Keras на Spark с использованием Elephas, но, к сожалению, кажется, есть ряд ошибок, которые не позволяют сделать это возможным в данный момент. Типичная строка данных (в текстовом файле) может выглядеть так:

{"user":"123","movies":["Alien", "A Beautiful Mind", "Jaws", "Minority Report"],"embeddings":{"type":0,"size":27209,"indices":[7,135,16754,23658],"values":[1.0,1.0,1.0,1.0]}}

Нужно ли мне писать собственный анализатор JSON на Python для обработки чтения данных такого рода в Keras / NumPy?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...