Информационный майнинг, классификация, модификация - PullRequest
1 голос
/ 29 ноября 2009

Какие-нибудь примеры, советы, рекомендации для следующего сценария?

Я получил обновления с нескольких разных новостных сайтов. Затем я анализирую эту информацию, чтобы предсказать текущую тенденцию в мире.

Я мог найти информацию только о поиске данных при поиске вышеупомянутой идеи, но это касается систем баз данных. Хотя интеллектуальный анализ данных похож на то, что я пытаюсь сделать, интеллектуальный анализ данных в базах данных более конкретен, чем то, что я получил с веб-сайтов. Так может ли кто-нибудь направить меня в этом аспекте? Я действительно ценю любую помощь, которую вы можете оказать в этом.

Спасибо.

Ответы [ 2 ]

0 голосов
/ 29 ноября 2009

Если вы ищете алгоритмы извлечения данных, вы должны проверить кластерный анализ и «неотрицательную матричную факторизацию».
Вы можете извлечь общие темы с этим. Получить текущую тенденцию от этого относительно легко.
Но какие (если таковые имеются) из других тем получат следующую тенденцию, требующую магии или нейронных сетей.

0 голосов
/ 29 ноября 2009

Прежде всего, вам нужны данные тренировок из прошлого. Смысл, сборник старых новостей и состояние тренда для анализа в разные моменты времени.

Затем вы должны решить, как количественно оценить эту информацию. Если тенденция похожа на «Проданные мобильные телефоны», вы можете просто взять количество проданных мобильных телефонов. Новости сложнее оценить. Например, вы можете измерить частоту слов в новостях обучения и использовать n наименее частых слов в качестве функций (аналогично фильтрам спама).

После этого вы обучаете классификатор этим особенностям и тенденциям из прошлого. Хорошим является алгоритм «Случайный лес», так как он практически не содержит параметров.

Вам понадобится много базовых знаний, чтобы реально реализовать этот план. «Элементы статистического обучения» Хасти, Тибширани и Фридмана - хорошая книга для изучения. Его можно бесплатно скачать на домашней странице авторов.

...