Кто-нибудь работал с PHP API, чтобы прочитать результаты сканирования 'Nutch search engine'? - PullRequest
2 голосов
/ 29 октября 2009

Я настроил поисковую систему Nutch для сканирования веб-сайтов. Теперь мне нужно написать php API для общения с поисковой системой Nutch. Мне нужно сделать 2 вещи:

  1. используя скрипт PHP, мне нужно указать Nutch, какие URL сканировать (для этого у меня есть несколько указателей от http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2.html

  2. с использованием сценария PHP, мне нужно получить результат сканирования из БД сканирования Nutch. Кажется, я не могу найти какую-либо помощь по этому вопросу (или, возможно, я слишком глуп, чтобы увидеть ответ, если он уже есть: ()

Если кто-то использовал PHP API для чтения результатов сканирования Nutch, поделитесь со мной некоторыми указателями.

Отчаянно жду помощи.

Ответы [ 4 ]

0 голосов
/ 23 января 2014

вам нужно использовать Solr для поиска или другой поисковой платформы, Nutch просто гусеничный, идея проста:

  • ==> гайка для ползания
  • ==> solr для создания индекса
  • ==> создать интерфейс для поиска внутри индекса (шаг 2). я использовал SolariumBundle для этого шага
0 голосов
/ 07 января 2011

относительно # 2, Nutch написан на JSP и Java, я не знаю никакой реализации PHP (если вы обнаружите, что мне интересно). Таким образом, в основном вы должны создать схему связи типа AJAX или SOAP между вашим PHP-скриптом и Nutch-сервером. Вы пытались помочь списку рассылки NUTCH

0 голосов
/ 26 мая 2011

Я тоже ищу действительно хороший способ сделать это. Но на данный момент я использую JSP API для отображения результатов поиска. Это должно начать вас.

Вы также можете использовать php для получения результатов в виде объектов JSON.

Чтобы начать вас в этом направлении, есть интересная страница , которая поможет вам начать работу с JSON с помощью jquery. Google для других учебников по JSON. Их много.

0 голосов
/ 07 января 2011

для вашего вопроса # 1 вам нужно добавить эти URL сканеру. Относительно просто: + создать файл с URL-адресами, которые вы хотите добавить + выдать команду ввода с этими URL-адресами (может потребоваться дождаться окончания предыдущего цикла сканирования / выборки / индексации) + начать новое сканирование

примечание: необходимо убедиться, что URL-адреса также не отфильтрованы

...