Я использовал Bixo в работе на крупной социальной сети (100 миллионов просмотров страниц в день) для классификации пользовательского контента (в основном все, что пользователь создал со ссылкой в нем).
Это был довольно сложный рабочий процесс с использованием каскадирования для
- дедупликации URL-адресов,
- , чтобы заставить Bixo получать содержимое страницы,
- выдвигать содержимое страницыс помощью классификаторов и
- вызывает аннулирование учетных записей для спам-аккаунтов, запускать отчеты о спаме и т. д.
Если вы знаете, что такое каскадирование, то Bixo действительно работает как любой другой компонент каскадирования, в основном ожидая, что URL-адреса будут входными ииспускание связки информации, связанной со страницей, в качестве вывода.
В начале я недооценил одну вещь: для многих вертикальных сканеров аспект сканирования - это «только» один маленький кусочек головоломки.Весь рабочий процесс вокруг него может стать очень сложным, и если вы идете с другим изолированным продуктом на гусеничном ходу, вам нужно найти способ его интеграции.Bixo, использующий Cascading, становится еще одним входом в ваш рабочий процесс.
Сам Bixo кажется очень надежным.Кен Круглер (ведущий разработчик) очень отзывчив и смог исправить некоторые проблемы с зависаниями, которые у меня были в начале дня (мой набор данных содержал много «грязных» URL).У него есть очень полный набор автоматизированных тестов, обеспечивающий правильную работу Bixo.
В целом, я не могу рекомендовать его достаточно высоко.Вся система была построена мной за 6-9 месяцев, и я не думаю, что мог бы сделать это без этого в такие сроки.