Соскреб веб-сайтов с компьютерным зрением - PullRequest
0 голосов
/ 26 декабря 2018

Мне дали задание удалить большое количество веб-сайтов.Все они представляют (визуально говоря) интересующие меня данные одинаково.Каждый из этих веб-сайтов имеет представление о товаре (так его можно назвать).И все представления содержат одну и ту же информацию: название продукта, цену, возможно, некоторые изображения, описание и т. Д. *

Если бы мне пришлось отказаться от 10 сайтов, я бы написал 10 if/else илиcase для того, чтобы справиться с ними, но я боюсь, что количество веб-сайтов значительно больше.И, таким образом, я столкнулся с совершенно другой проблемой.

Тогда я понял, что буду использовать «компьютерное зрение» и «машинное обучение».Это звучит разумно в смысле наличия почти идентичных веб-сайтов и «обучения» алгоритму «просмотра» данных, которые меня интересуют.

Моя стратегия до сих пор состоит в том, чтобы сделать каждый продукт детальным.просмотреть в безголовом Chrome (управляемом селеном), сделать снимок экрана и разделить визуальное представление сайта на куски: левый столбец, основной, правый столбец.Затем разделите «основную» часть на несколько частей: заголовок, крошка, контент и т. Д.

К сожалению, я не совсем уверен, как на самом деле разделить скриншот на куски.Я просматривал документы OpenCV, но я не уверен, что он подходит для этой конкретной цели (или так?).

Существуют ли другие библиотеки, которые лучше подходят для того, что я пытаюсьсделать?Кроме того, моя стратегия звучит хорошо или есть более эффективные способы решения этой проблемы?

PS: Diffbot, Import.io и подобные им варианты не подходят.Пожалуйста, не предлагайте их.

1 Ответ

0 голосов
/ 26 декабря 2018

Вы можете попытаться решить проблему более инженерным подходом вместо машинного обучения.Я имею в виду иметь один код для всех сайтов, но разные конфиги для каждого из них.Некоторые примеры конфигурации:

title: '#title_id',
description: '#description_id',
price: '#price_id'

Такой подход потребует некоторой поддержки в будущем, потому что разметка может быть изменена.Но может быть хорошо начать сейчас.

...