Алгоритмы отображения данных в интеллектуальном анализе данных - PullRequest
2 голосов
/ 14 мая 2011

Мне нужно почистить некоторые веб-страницы и извлечь из них контент.Я планирую выбрать некоторые конкретные ключевые слова и сопоставить данные, которые имеют некоторые отношения с ними.Но я понятия не имею, как я мог это сделать.Может ли кто-нибудь предложить мне какие-нибудь алгоритмы для этого?Я мог бы предоставить это быстро и точно.

Также было бы полезно указать на полезные библиотеки.Я планирую сделать это на Python.

Ответы [ 2 ]

1 голос
/ 14 мая 2011

Посмотрите на NLTK , Pattern или Orange modules.

В качестве начала " Программирование коллективного интеллекта: создание умных веб 2.0 приложений " Тоби Сегарана - хорошая книга для чтения.

1 голос
/ 14 мая 2011

Вы можете попробовать алгоритмы, основанные на термин частота-обратная частота документа TF-IDF , в Java я бы порекомендовал Solr ... ну на самом деле вы могли бы используйте Solr и получите к нему доступ через python см. здесь

...