Нахождение основного текста на странице - PullRequest
0 голосов
/ 03 ноября 2010

Мне нужно, чтобы найти тег, содержащий актуальный соответствующий текст веб-страницы.Например, на новом веб-сайте, где есть добавления, меню, баннеры и т. Д. Мне нужно иметь возможность анализировать веб-страницу, предполагая, что она используется в XHTML для упрощения сценария, и возвращать только тег, содержащий фактические новости на странице.

Я думаю об этом, сравнивая размер текста в каждом узле и выбирая узел с большинством текста.У кого-нибудь есть идея получше?

1 Ответ

0 голосов
/ 03 ноября 2010

Как насчет идентификации по содержимому заголовка xhtml?

...