«Умный» способ парсинга и использования данных сайта? - PullRequest
31 голосов
/ 03 августа 2009

Как можно интеллектуально анализировать данные, возвращаемые результатами поиска на странице?

Например, допустим, я хотел бы создать веб-сервис, который выполняет поиск онлайн-книг, анализируя результаты поиска на сайтах многих поставщиков книг. Я мог бы получить необработанные HTML-данные страницы и выполнить некоторые регулярные выражения, чтобы данные работали для моего веб-сервиса, но если какой-либо из веб-сайтов изменит форматирование страниц, мой код будет поврежден!

RSS - действительно изумительный вариант, но многие сайты не имеют поиска на основе XML / JSON.

Существуют ли какие-либо комплекты, которые помогают автоматически распространять информацию на страницах? Сумасшедшая идея заключалась в том, чтобы нечеткий AI-модуль распознавал шаблоны на странице результатов поиска и соответственно анализировал результаты ...

Ответы [ 12 ]

0 голосов
/ 05 августа 2009

Достаточно справедливо, я собираюсь использовать метод супа Tag в соответствии с рекомендациями.

В качестве дополнительного вопроса - как же эти большие сайты типа скребка делают это? Я видел поисковик по работе (например, на самом деле.com), который сканирует тысячи сайтов! Это тысячи регулярных выражений? Его почти невозможно ...

0 голосов
/ 03 августа 2009

Если вы можете использовать что-то вроде Tag Soup , это будет место для начала. Тогда вы могли бы обрабатывать страницу как XML API, вроде.

Имеет реализацию на Java и C ++, может работать!

...