Построение вертикального гусеничного шасси с помощью Bixo - PullRequest
3 голосов
/ 18 июля 2010

Я наткнулся на сканер с открытым исходным кодом Bixo.Кто-нибудь пробовал это?Не могли бы вы поделиться опытом?Можем ли мы создать направленный гусеничный механизм с достаточной легкостью (по сравнению с Nutch / Heritrix)?Спасибо Найн

1 Ответ

8 голосов
/ 20 июля 2010

Я использовал Bixo в работе на крупной социальной сети (100 миллионов просмотров страниц в день) для классификации пользовательского контента (в основном все, что пользователь создал со ссылкой в ​​нем).

Это был довольно сложный рабочий процесс с использованием каскадирования для

  • дедупликации URL-адресов,
  • , чтобы заставить Bixo получать содержимое страницы,
  • выдвигать содержимое страницыс помощью классификаторов и
  • вызывает аннулирование учетных записей для спам-аккаунтов, запускать отчеты о спаме и т. д.

Если вы знаете, что такое каскадирование, то Bixo действительно работает как любой другой компонент каскадирования, в основном ожидая, что URL-адреса будут входными ииспускание связки информации, связанной со страницей, в качестве вывода.

В начале я недооценил одну вещь: для многих вертикальных сканеров аспект сканирования - это «только» один маленький кусочек головоломки.Весь рабочий процесс вокруг него может стать очень сложным, и если вы идете с другим изолированным продуктом на гусеничном ходу, вам нужно найти способ его интеграции.Bixo, использующий Cascading, становится еще одним входом в ваш рабочий процесс.

Сам Bixo кажется очень надежным.Кен Круглер (ведущий разработчик) очень отзывчив и смог исправить некоторые проблемы с зависаниями, которые у меня были в начале дня (мой набор данных содержал много «грязных» URL).У него есть очень полный набор автоматизированных тестов, обеспечивающий правильную работу Bixo.

В целом, я не могу рекомендовать его достаточно высоко.Вся система была построена мной за 6-9 месяцев, и я не думаю, что мог бы сделать это без этого в такие сроки.

...