Question

Мне нужно почистить некоторые веб-страницы и извлечь из них контент.Я планирую выбрать некоторые конкретные ключевые слова и сопоставить данные, которые имеют некоторые отношения с ними.Но я понятия не имею, как я мог это сделать.Может ли кто-нибудь предложить мне какие-нибудь алгоритмы для этого?Я мог бы предоставить это быстро и точно.

Также было бы полезно указать на полезные библиотеки.Я планирую сделать это на Python.

riza · Answer 1 · 14 мая 2011

Посмотрите на NLTK , Pattern или Orange modules.

В качестве начала " Программирование коллективного интеллекта: создание умных веб 2.0 приложений " Тоби Сегарана - хорошая книга для чтения.

Manuel Salvadores · Answer 2 · 14 мая 2011

Вы можете попробовать алгоритмы, основанные на термин частота-обратная частота документа TF-IDF , в Java я бы порекомендовал Solr ... ну на самом деле вы могли бы используйте Solr и получите к нему доступ через python см. здесь

Алгоритмы отображения данных в интеллектуальном анализе данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритмы отображения данных в интеллектуальном анализе данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы