Mahout - интеграция JPA. Нужен ли мне файл CSV? - PullRequest
1 голос
/ 19 января 2012

У меня есть существующая модель данных, использующая openJPA, и я пытаюсь интегрировать CF-систему, используя Mahout.

Простите, если это вопрос о кости, но я только начал исследовать mahout.Mahout в действии находится в почте, поэтому я скоро должен быть в курсе.

Мой вопрос заключается в том, как интегрировать mahout с существующей моделью jpa.Нужно ли предоставлять CSV-файл классу DataModel или я могу расширить DataModel для чтения непосредственно из моего существующего источника данных.Я понимаю, что не будет очень сложно создать CSV-файл из моих данных, но это кажется ненужным промежуточным шагом.

Я очень новичок в мире "большого набора данных", так что прости мое невежество.Но большинство систем, которые используют Mahout, используют набор данных CSV?Как-то это мне кажется странным.

Спасибо.

Редактировать:

Итак, я читаю предварительный просмотр Amazon на Mahout в действии.Кажется, что вы можете иметь интерфейс mahout непосредственно в вашей БД, но вы делаете это за счет производительности.Я не могу ждать, чтобы получить в свои руки эту книгу.Любые комментарии или советы по этому поводу все равно будут высоко оценены.

1 Ответ

1 голос
/ 19 января 2012

Распределенный материал / Hadoop будет читать из HDFS, или Hbase, или Cassandra, или что у вас есть.

Нераспределенный материал обычно читает из файлов, и есть некоторые хуки для чтения из базы данных / JDBC,Источник не так уж важен, так как модель рекомендации все равно загружает его в память.

Вы можете написать свой собственный DataSource, повторно использовать GenericDataModel или изменить другую реализацию.

...