Мне дали задание удалить большое количество веб-сайтов.Все они представляют (визуально говоря) интересующие меня данные одинаково.Каждый из этих веб-сайтов имеет представление о товаре (так его можно назвать).И все представления содержат одну и ту же информацию: название продукта, цену, возможно, некоторые изображения, описание и т. Д. *
Если бы мне пришлось отказаться от 10 сайтов, я бы написал 10 if/else
илиcase
для того, чтобы справиться с ними, но я боюсь, что количество веб-сайтов значительно больше.И, таким образом, я столкнулся с совершенно другой проблемой.
Тогда я понял, что буду использовать «компьютерное зрение» и «машинное обучение».Это звучит разумно в смысле наличия почти идентичных веб-сайтов и «обучения» алгоритму «просмотра» данных, которые меня интересуют.
Моя стратегия до сих пор состоит в том, чтобы сделать каждый продукт детальным.просмотреть в безголовом Chrome (управляемом селеном), сделать снимок экрана и разделить визуальное представление сайта на куски: левый столбец, основной, правый столбец.Затем разделите «основную» часть на несколько частей: заголовок, крошка, контент и т. Д.
К сожалению, я не совсем уверен, как на самом деле разделить скриншот на куски.Я просматривал документы OpenCV, но я не уверен, что он подходит для этой конкретной цели (или так?).
Существуют ли другие библиотеки, которые лучше подходят для того, что я пытаюсьсделать?Кроме того, моя стратегия звучит хорошо или есть более эффективные способы решения этой проблемы?
PS: Diffbot, Import.io и подобные им варианты не подходят.Пожалуйста, не предлагайте их.