Как можно интеллектуально анализировать данные, возвращаемые результатами поиска на странице?
Например, допустим, я хотел бы создать веб-сервис, который выполняет поиск онлайн-книг, анализируя результаты поиска на сайтах многих поставщиков книг. Я мог бы получить необработанные HTML-данные страницы и выполнить некоторые регулярные выражения, чтобы данные работали для моего веб-сервиса, но если какой-либо из веб-сайтов изменит форматирование страниц, мой код будет поврежден!
RSS - действительно изумительный вариант, но многие сайты не имеют поиска на основе XML / JSON.
Существуют ли какие-либо комплекты, которые помогают автоматически распространять информацию на страницах? Сумасшедшая идея заключалась в том, чтобы нечеткий AI-модуль распознавал шаблоны на странице результатов поиска и соответственно анализировал результаты ...