У меня нет непосредственного опыта в этом, поэтому я не уверен, что есть какая-то конкретная лучшая практика, но в целом я думаю, что эвристический подход, учитывающий несколько факторов, имеет смысл из-за изменчивости, обнаруженной в реализациях веб-сайтов .
Я бы посмотрел на два набора элементов: свойства изображения и контекст, где / как размещены изображения.
Свойства изображения:
- Ширина и высота соответствуют минимальным порогам
- Соотношение сторон является разумным (фоновые изображения, которые могут иметь экстремальные пропорции, что дает хороший признак того, что изображение может не подходить)
- В изображении присутствует несколько цветов (их труднее обнаружить, но можно избежать различных фоновых изображений)
Контекст изображения:
- Изображение не повторяется на странице (это позволяет избежать использования значков и других элементов дизайна, которые могут повторяться)
- Происходит после тегов h1, h2 и т. Д. На странице; это приводит вас к выводу об изображениях, идущих с середины страницы, опять же избегая элементов дизайна.
- Имеет тег alt (хотя он используется не всегда, поэтому, возможно, не дает много полезной информации)
Я бы присвоил веса предыдущим элементам, а затем оценил найденные изображения в соответствии с тем, насколько хорошо каждое изображение удовлетворяет правилам.
Также обратите внимание, что некоторые страницы могут использовать CSS (или Flash и т. Д.) Для отображения изображений. Они находятся за пределами вашей компетенции изображений (согласно алгоритму, который вы определили); возможно не большое дело, но кое-что, чтобы рассмотреть.