Вот только мои догадки.
Конечно, необходим список названий фильмов. Это необходимый первый шаг в обрезке твитов до подмножества, которое возможно может относиться к фильму.
Название фильма можно узнать по самим словам (например, «Терминатор 2»), или оно требует от автора устранения неоднозначности (например, «Неизвестно» - или «Унесенные ветром», что может относиться либо к фильму или к книге). В последнем случае будут предоставлены различные подсказки. Возможно, наиболее очевидно:
- Все, что следует за такой фразой, как «Только что видел» или «Смотрел», весьма вероятно, будет названием фильма. Меньше всего, что следует за «Чтением».
- Если в фильме упоминается имя режиссера или актера, это, скорее всего, относится к фильму.
- Контент в Твиттере сильно перекосился к последним событиям, поэтому вероятность того, что фильм обсуждается, уменьшается с увеличением времени выхода фильма в кинотеатры.
- Если твит является ответом на другой твит, который с высокой вероятностью относится к определенному фильму, то, вероятно, речь идет о том же фильме.
Я ожидаю, что критерии, подобные приведенным выше, используются для присвоения вероятностей для классификации в соответствии с некоторыми весами, и что обычные методы были применены для изменения весов, чтобы дать хорошие прогнозы. Я ожидал бы, что контролируемый подход к машинному обучению : по сути, пусть некоторые люди классифицируют несколько сотен твитов, затем оптимизируют весовые показатели для производительности в некотором подмножестве этого набора данных и, наконец, проверяют, насколько хорошо выбранные весовые коэффициенты работают для классификации оставшаяся часть набора данных (чтобы убедиться, что не произошло переоснащение).