Алгоритмы обнаружения контента - PullRequest
0 голосов
/ 29 января 2012

Я пытаюсь воспроизвести «обнаружение контента» веб-страниц, сделанное Ясно .

По заданной веб-странице я хочу автоматически различать текст содержание , в отличие от текстовых меню, текстовых объявлений, текстовых кнопок и т. Д.

Какие алгоритмы подходят для обнаружения текстового содержимого на страницах HTML?

[В случае StackOverflow содержимое будет актуальным вопросом. Все остальное - просто «разболтать содержимое».]

1 Ответ

1 голос
/ 29 января 2012

Возможно, вы захотите взглянуть на алгоритм Readability.

Какой алгоритм использует Readability для извлечения текста из URL?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...