Рекомендательный код Mahout может считываться непосредственно из базы данных или файла - если данные разумно отформатированы. Он не будет читать общие файлы журнала; они должны быть переведены в простые CSV или TSV. Но он может читать практически любую таблицу, которая содержит пользователей / элементы / предпочтения.
Если вы уже помещаете свои данные в таблицу базы данных, я бы сказал, что оставьте их там, не дублируйте их и не экспортируйте их без необходимости. Вы, возможно, захотите, чтобы Махоут всосал все это в память, если это возможно.
Если вы еще не храните эти данные и хотите выбрать простое и эффективное представление, я бы предложил вам извлечь информацию о пользователе / элементе / предпочтении и сохранить ее в простых файлах CSV, сжатых с помощью gzip. Их также можно легко использовать с Mahout, и они будут проще и компактнее, чем полные файлы журналов или база данных.