Как работают такие сервисы, как fflick?Какие алгоритмы они используют? - PullRequest
1 голос
/ 28 февраля 2011

Такие сервисы, как fflick, mombo и т. Д. Выполняют анализ твитов о фильмах.Кажется, они обрабатывают сотни тысяч твитов.

  1. Как они сопоставляют твит с фильмом?Например, допустим, есть фильм под названием «неизвестно».Как они определяют, говорит ли твит о неизвестном - о фильме или о чем-то неизвестном?

  2. Как они могут собрать так много твитов?API потоковой передачи?

  3. Поддерживают ли они список названий фильмов и проверяют каждый твит по этому списку, чтобы выяснить, ссылается ли твит на конкретный фильм?1015 *

1 Ответ

3 голосов
/ 28 февраля 2011

Вот только мои догадки.

Конечно, необходим список названий фильмов. Это необходимый первый шаг в обрезке твитов до подмножества, которое возможно может относиться к фильму.

Название фильма можно узнать по самим словам (например, «Терминатор 2»), или оно требует от автора устранения неоднозначности (например, «Неизвестно» - или «Унесенные ветром», что может относиться либо к фильму или к книге). В последнем случае будут предоставлены различные подсказки. Возможно, наиболее очевидно:

  • Все, что следует за такой фразой, как «Только что видел» или «Смотрел», весьма вероятно, будет названием фильма. Меньше всего, что следует за «Чтением».
  • Если в фильме упоминается имя режиссера или актера, это, скорее всего, относится к фильму.
  • Контент в Твиттере сильно перекосился к последним событиям, поэтому вероятность того, что фильм обсуждается, уменьшается с увеличением времени выхода фильма в кинотеатры.
  • Если твит является ответом на другой твит, который с высокой вероятностью относится к определенному фильму, то, вероятно, речь идет о том же фильме.

Я ожидаю, что критерии, подобные приведенным выше, используются для присвоения вероятностей для классификации в соответствии с некоторыми весами, и что обычные методы были применены для изменения весов, чтобы дать хорошие прогнозы. Я ожидал бы, что контролируемый подход к машинному обучению : по сути, пусть некоторые люди классифицируют несколько сотен твитов, затем оптимизируют весовые показатели для производительности в некотором подмножестве этого набора данных и, наконец, проверяют, насколько хорошо выбранные весовые коэффициенты работают для классификации оставшаяся часть набора данных (чтобы убедиться, что не произошло переоснащение).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...