mahout входной двоичный набор данных с совместной фильтрацией - PullRequest
1 голос
/ 02 октября 2011

я новичок в mahout.

Я уже использовал алгоритм, основанный на элементах Махоута, с мерой подобия логарифмического правдоподобия.В предыдущих темах я читал, что лучше использовать логарифмическое сходство, когда рекомендатель обрабатывает двоичные значения (нравится или не нравится).Я также читал, что mahout использует три значения (например, не нравится, не существует).Так что я немного запутался насчет формата файла входного набора данных.

Должен ли формат входного файла быть таким?

 userId, itemID

, где предпочтение по умолчанию равно 1?

Я хотел бы знать, есть ли способ поместить информацию о неприязни в набор данных.

Я бы, за исключением, например, файла входного набора данных, был бы примерно таким:

ИД пользователя, itemid, binaryPreference 1, 15, 1.0

2, 35, 0

1, 25, 1.0 ......

Помогите мне, пожалуйста!Спасибо заранее!

1 Ответ

0 голосов
/ 02 октября 2011

Я не уверен, где вы это прочитали, но это неправильно. В Mahout нет «булевых» предпочтений в трех государствах. У вас либо есть рейтинги в ваших данных, либо нет, и в этом случае у вас есть логические предпочтения, которые либо существуют, либо не существуют. Третьего состояния нет.

Как бы странно это ни казалось, я бы посоветовал вам попытаться рассматривать «нравится» и «нелюбовь» как одно и то же, чтобы начать. Это может хорошо работать.

Позже вы можете попытаться включить искусственные рейтинги по шкале от -1 до 1 или что-то, что будет представлять, как, не нравится и оттенки между ними. Затем вы можете попробовать другие метрики подобия, такие как евклидово расстояние, чтобы увидеть, как это происходит.

Третья возможность состоит в том, чтобы создать два рекомендателя: один имеет ассоциации типа «нравится», а другой - модель данных с ассоциациями типа «не нравится». Вы можете использовать выходные данные «подобного» рекомендателя и фильтровать или изменять результаты по результатам «неприязненного» рекомендателя. Это потребует некоторого кодирования, но не сложно.

user@mahout.apache.org было бы хорошим местом для продолжения этого.

...