Прежде всего, вам нужны данные тренировок из прошлого. Смысл, сборник старых новостей и состояние тренда для анализа в разные моменты времени.
Затем вы должны решить, как количественно оценить эту информацию. Если тенденция похожа на «Проданные мобильные телефоны», вы можете просто взять количество проданных мобильных телефонов.
Новости сложнее оценить. Например, вы можете измерить частоту слов в новостях обучения и использовать n наименее частых слов в качестве функций (аналогично фильтрам спама).
После этого вы обучаете классификатор этим особенностям и тенденциям из прошлого.
Хорошим является алгоритм «Случайный лес», так как он практически не содержит параметров.
Вам понадобится много базовых знаний, чтобы реально реализовать этот план. «Элементы статистического обучения» Хасти, Тибширани и Фридмана - хорошая книга для изучения. Его можно бесплатно скачать на домашней странице авторов.