Считайте, что у вас есть индекс Solr с прибл.20 миллионов предметов.При индексации этих элементов они добавляются в индекс партиями.
Приблизительно 5% всех этих элементов индексируются дважды или более раз, поэтому возникает проблема дубликатов .
Если вы посмотрите журнал, то увидите, что эти элементы действительно добавляются дважды (или больше).Часто с интервалом в 2-3 минуты между ними и другими элементами между ними.
Веб-сервер, который запускает индексацию, находится в среде с балансировкой нагрузки (2 веб-сервера).Однако веб-сервер, который выполняет фактическую индексацию, является одним веб-сервером.
Вот некоторые элементы конфигурации в solrconfig.xml :
<indexDefaults>
.....
<mergeFactor>10</mergeFactor>
<ramBufferSizeMB>128</ramBufferSizeMB>
<maxFieldLength>10000</maxFieldLength>
<writeLockTimeout>1000</writeLockTimeout>
<commitLockTimeout>10000</commitLockTimeout>
<mergePolicy class="org.apache.lucene.index.LogByteSizeMergePolicy">
<double name="maxMergeMB">1024.0</double>
</mergePolicy>
<mainIndex>
<useCompoundFile>false</useCompoundFile>
<ramBufferSizeMB>128</ramBufferSizeMB>
<mergeFactor>10</mergeFactor>
Iиспользую Solr 1.4.1 и Tomcat 7.0.16.Также я использую новейшую библиотеку SolrNET.
Что может вызвать проблему с дубликатами?Спасибо за все комментарии!