методология сбора данных системы рекомендаций - PullRequest
1 голос
/ 19 июля 2010

Я создаю систему рекомендаций в своем приложении и, вероятно, собираюсь использовать apache mahout, я собираю большой набор данных, он будет собираться в течение определенного периода времени ... так, какой из них наименее затратный между сборомэто в каком-то файле журнала против сбора в БД и экспорта его, когда мне это нужно

1 Ответ

1 голос
/ 20 июля 2010

Рекомендательный код Mahout может считываться непосредственно из базы данных или файла - если данные разумно отформатированы. Он не будет читать общие файлы журнала; они должны быть переведены в простые CSV или TSV. Но он может читать практически любую таблицу, которая содержит пользователей / элементы / предпочтения.

Если вы уже помещаете свои данные в таблицу базы данных, я бы сказал, что оставьте их там, не дублируйте их и не экспортируйте их без необходимости. Вы, возможно, захотите, чтобы Махоут всосал все это в память, если это возможно.

Если вы еще не храните эти данные и хотите выбрать простое и эффективное представление, я бы предложил вам извлечь информацию о пользователе / ​​элементе / предпочтении и сохранить ее в простых файлах CSV, сжатых с помощью gzip. Их также можно легко использовать с Mahout, и они будут проще и компактнее, чем полные файлы журналов или база данных.

...