Я работаю над алгоритмом, который попытается определить, учитывая файл HTML, что он считает родительским элементом, который, скорее всего, содержит большую часть текста содержимого страницы.
Например, он выберет div "content" в следующем HTML:
<html>
<body>
<div id="header">This is the header we don't care about</div>
<div id="content">This is the <b>Main Page</b> content. it is the
longest block of text in this document and should be chosen as
most likely being the important page content.</div>
</body>
</html>
Я выдвинул несколько идей, таких как обход дерева документа HTML до конца, добавление длины текста и просмотр только того, какой другой текст у родителя, если родитель дает нам больше контента, чем дети делаем.
Кто-нибудь когда-нибудь пробовал что-то подобное или знает алгоритм, который можно применить? Он не обязательно должен быть твердым, но до тех пор, пока он может угадать контейнер, который содержит большую часть текста содержимого страницы (например, для статей или сообщений в блоге), это было бы здорово.