В целом я заинтересован в извлечении данных путем сканирования веб-сайтов, но мне никогда не удавалось найти много документации по процессу, который я действительно хотел бы реализовать. Мне очень нравится идея написания базового набора правил, которые определяют, как анализировать страницу, а затем обучать инструмент, когда он делает ошибки.
Допустим, я хочу разобрать меню с сайтов ресторанов. Я хотел бы создать инструмент, который позволил бы мне написать набор правил, которые обычно показывают, где находятся пункты меню + цены. Затем я мог запустить инструмент и сказать ему, какие пункты меню были правильно проанализированы, а какие - нет. Затем инструмент «извлечет уроки» из этих исправлений, и при следующем запуске я получу лучшие результаты.
Я немного посмотрел на инструментарий NLTK, и меня удивляет, что лучший способ решить эту проблему - использовать инструмент NLP, такой как NLTK. Кто-нибудь может указать мне правильное направление для поиска книг и (в идеале) библиотек, которые могут помочь мне начать? НЛП - это путь? Спасибо!