Я пытаюсь воспроизвести «обнаружение контента» веб-страниц, сделанное Ясно .
По заданной веб-странице я хочу автоматически различать текст содержание , в отличие от текстовых меню, текстовых объявлений, текстовых кнопок и т. Д.
Какие алгоритмы подходят для обнаружения текстового содержимого на страницах HTML?
[В случае StackOverflow содержимое будет актуальным вопросом. Все остальное - просто «разболтать содержимое».]