Почему Nutch Solrdedup не может удалить дубликаты веб-страниц - PullRequest
2 голосов
/ 26 февраля 2012

У меня есть две веб-страницы с одинаковым содержанием, но разные по URL. Один URL начинается с http://www.example.com,, другой начинается с http://example.com. После того, как я использую Solrdedup, чтобы удалить дублирующиеся данные в Solr. Я считаю, что оба остаются там. Кто-нибудь знает, что здесь происходит?

1 Ответ

2 голосов
/ 03 июля 2012

Схема нутча определяет id (= url) как уникальный ключ.Если это не подходит для вас, измените его.Соответствующая строка в schema.xml:

<uniqueKey>url</uniqueKey>

Но лучшим решением может быть следующее: Если вы можете получить доступ к вашему серверу с помощью

http://www.example.com

и

http://example.com

Вы должны рассмотреть сканирование только одного из них с использованием фильтров регулярных выражений для предотвращения дублирования.

...