Разбор и разбиение нескольких HTML-страниц без понятия - PullRequest
0 голосов
/ 11 января 2012

У меня есть около 50 необработанных HTML-страниц, относящихся к моему проекту. Я не уверен, что это содержимое имеет уникальный шаблон.

Мне нужно проанализировать содержимое всех страниц, и оно должно быть классифицировано по ключевым словам.

Ключевые слова все в этом роде

«ОБЗОРЫ», «ОТЧЕТЫ», «ОБРАТНАЯ СВЯЗЬ», «ОПИСАНИЕ», «КОММЕНТАРИИ», «УСПЕХ», «СБОЙ» Просканированный контент HTML должен быть классифицирован и сопоставлен с соответствующими ключевыми словами .

Также необходимо разделить содержимое и его заголовки со страницы для сравнения

Я использую Python.

Не могли бы вы предложить способ сделать это? Какой из них подойдет для выбора? Как должна быть организована идея?

Ответы [ 2 ]

1 голос
/ 13 января 2012

Если вам нужно выполнить классификацию по содержанию страниц, я бы посоветовал вам взглянуть на NLTK (http://www.nltk.org/), инструментарий естественного языка для модулей с открытым исходным кодом.

Не пытайтесь просто попробоватьдля просмотра случаев, например, «отчет» на страницах. Отчет может содержать или не содержать «отчет» в качестве заголовка или содержания. Вы можете использовать NLTK, чтобы найти термины, связанные с вашими ключевыми словами (например, показатели успешности и одобрения).оценки) или из того же семейства (например, описание и описание).

Посмотрите на содержимое страниц и попытайтесь определить, что отличает их от других. Например, страница с комментариямивероятно, есть такие выражения, как «я думаю, что», «на мой взгляд» и субъективные термины, обычно прилагательные и наречия, такие как «хорошо», «быстро», «ужасно» и т. д. В отчете вряд ли есть такие слова.

Помимо содержимого, структура страницы может варьироваться от категории к категории. Если вы собираетесь проанализировать это, возможно, используйте Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/) для номиналапеть - хорошая идея.

1 голос
/ 11 января 2012

Это типичная проблема классификации.Вы можете использовать байесовский классификатор, чтобы определить, к какой категории относится страница.Это позволит вам легко масштабировать сайты, на которых вы подписаны.

Проверьте http://www.python -course.eu / text_classification_introduction.php

Для общего ознакомления.Что я действительно рекомендую, так это книгу под названием «Программирование коллективного интеллекта» от О'Рейли, примеры книг на Python, и в них есть глава, посвященная тому, что вы пытаетесь сделать.Они не вдавались в подробности, но достаточны для того, чтобы начать работу.

Если вы просто хотите узнать, как идентифицировать страницы и т. Д. Попробуйте Weka - инструмент на основе Java.Очевидно, что это не соответствует вашим требованиям к Python, поэтому я бы рекомендовал его больше в качестве инструмента обучения, если вы заинтересованы в общей области.

...