Как подойти к автоматическому извлечению конкретной информации из нескольких веб-конфигураторов - PullRequest
0 голосов
/ 10 сентября 2018

В настоящее время я работаю над проектом, который требует извлечения очень специфических текстовых элементов с веб-сайтов или инструментов онлайн-конфигуратора (например, автомобильных конфигураторов).

У меня нет предыдущего опыта (автоматического) сбора данных, но я бы хотел его изучить. То, с чем я сейчас борюсь, это как подойти к моему проекту из-за следующей проблемы: веб-сайты и инструменты конфигуратора имеют тенденцию быть очень разнородными , что потребует от меня установки одного сканер за веб-сайт, побеждая цель автоматизированного процесса.


Мой идеальный процесс выглядит следующим образом:

ВВОД: Веб-сайты и веб-конфигураторы
ВЫХОД: Файл Excel с конкретной информацией в виде столбцов

Пример:
INPUT : BMW Car Configurator
ВЫХОД : файл Excel со столбцами: модель автомобиля / идентификатор конфигурации, базовая цена, дополнительная цена a, дополнительная цена a, дополнительная цена b, дополнительная цена b, ...


До сих пор я пытался решить эту проблему с помощью веб-сканеров в Python, но, как уже упоминалось выше, это означало бы настроить несколько сканеров, что противоречит цели автоматизированного процесса. Кроме того, я мог бы работать с PDF-файлами этих инструментов конфигуратора (например, прайс-листами), однако я не стал больше извлекать данные из PDF-файлов.

Буду признателен за любые советы или советы, которые помогут мне найти правильный подход к тому, чего я хочу достичь!

...