Question

У меня есть две веб-страницы с одинаковым содержанием, но разные по URL. Один URL начинается с http://www.example.com,, другой начинается с http://example.com. После того, как я использую Solrdedup, чтобы удалить дублирующиеся данные в Solr. Я считаю, что оба остаются там. Кто-нибудь знает, что здесь происходит?

mana · Answer 1 · 03 июля 2012

Схема нутча определяет id (= url) как уникальный ключ.Если это не подходит для вас, измените его.Соответствующая строка в schema.xml:

<uniqueKey>url</uniqueKey>

Но лучшим решением может быть следующее: Если вы можете получить доступ к вашему серверу с помощью

http://www.example.com

и

http://example.com

Вы должны рассмотреть сканирование только одного из них с использованием фильтров регулярных выражений для предотвращения дублирования.

Почему Nutch Solrdedup не может удалить дубликаты веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему Nutch Solrdedup не может удалить дубликаты веб-страниц

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы