Учитывая HTML-страницу, которая представляет собой текстовую статью, я хотел бы определить и разобрать основной контент.
Используя http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html в качестве примера, я хочу определить div # post-4438372351887392855, который содержит заголовок и статью.
Я знаю, что ничто не может быть идеальным или работать 100% времени, но есть ли подход, который может дать мне желаемый результат при разумном количестве обстоятельств?
Моя нынешняя мысль состоит в том, чтобы перебирать каждый элемент div, убирать разметку и затем находить самый внутренний элемент div, содержащий наибольшее количество текста.
На данный момент, я только начинаю, поэтому в поисках информации я могу предложить концептуальный подход. Или, если что-то есть, библиотека с открытым исходным кодом была бы хороша.
Заранее благодарим за понимание.