Question

Я пытаюсь воспроизвести «обнаружение контента» веб-страниц, сделанное Ясно .

По заданной веб-странице я хочу автоматически различать текст содержание , в отличие от текстовых меню, текстовых объявлений, текстовых кнопок и т. Д.

Какие алгоритмы подходят для обнаружения текстового содержимого на страницах HTML?

[В случае StackOverflow содержимое будет актуальным вопросом. Все остальное - просто «разболтать содержимое».]

Regexident · Answer 1 · 29 января 2012

Возможно, вы захотите взглянуть на алгоритм Readability.

Какой алгоритм использует Readability для извлечения текста из URL?

Алгоритмы обнаружения контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритмы обнаружения контента

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы