Попробуйте проанализировать структуру страницы.У большинства веб-страниц примерно есть заголовок, контент и область нижнего колонтитула.Область содержимого, скорее всего, будет содержать изображения, относящиеся к теме страницы, поэтому вы именно это и ищете.
Найдите область содержимого
Большинство областей содержимого - это div
элементыс идентификатором или классом с именем content
, так что это всегда хорошее первое предположение.Могут быть альтернативные дескрипторы элемента содержимого, поэтому вам нужно будет провести некоторое исследование, чтобы найти общие шаблоны.
В области содержимого в большинстве случаев также будет несколько заголовков h1
или h2
, поэтомуэто еще один индикатор, который нужно искать.
Найти верхний и нижний колонтитулы
Другой подход - определить верхний и нижний колонтитулы.Заголовки обычно содержат подсказку к логотипу сайта, такую как изображение, имя класса CSS или ссылка на корень сайта.Нижние колонтитулы, скорее всего, содержат такие вещи, как заявления об авторских правах.
Вы также можете найти верхний и нижний колонтитулы, проанализировав ссылки на странице.Большинство внутренних ссылок будут находиться в верхнем и нижнем колонтитулах, в то время как контент имеет относительно больше исходящих ссылок, если таковые имеются.
Если у вас есть верхний и нижний колонтитулы, контент обычно находится между:)
Найдите изображение
После того как вы определили область содержимого, первое изображение, как правило, является вашим лучшим выбором.Однако вы должны игнорировать изображения с небольшой шириной и / или высотой, так как это, вероятно, будут декоративные изображения.
Вы также можете дважды проверить изображения по любым включенным файлам CSS, чтобы убедиться, что выне выбирая изображение, связанное с дизайном страницы.
Вернитесь к обоснованному предположению
Если вы не можете надежно угадать область содержимого страницы, просто используйте самое большое изображение настраница, как предположил egrunin.Опять же, вы можете сравнить это изображение с CSS-файлами, чтобы исключить любые изображения, связанные с дизайном.
В альтернативном случае вы можете зарегистрировать URL-адрес и просмотреть эти страницы, чтобы улучшить свои алгоритмы обнаружения изображений.