Я разрабатываю поисковую систему электронной коммерции, которая позволяет вам искать товары на многих сайтах электронной коммерции.
Как мне подойти к делу?
Мне нужно приложение, которое сможет сканировать веб-сайты, анализировать их HTML и определять, какие изображения на веб-сайте являются изображениями продуктов, описаниями продуктов и ценами на них.
Был бы рад услышать любую идею, например.
Заранее спасибо.
редактирование:
Мой вопрос не в том, как получить HTML-код с веб-сайтов (это называется очисткой экрана), а в том, как разобрать эту информацию и понять, какой из html содержит фактические данные, которые я ищу, а какие нет.