Я хочу добавлять и обновлять файлы pdf в индексе solrs. Мой сценарий: у меня есть каталог (mainDir), который нужно проиндексировать. Этот каталог содержит множество подкаталогов с файлами pdf. Новые файлы PDF и подкаталоги можно создавать, обновлять или удалять.
Я уже создал обработчик импорта данных, который рекурсивно индексирует все файлы в моем каталоге. Вот моя конфигурация:
<dataConfig>
<dataSource type="BinFileDataSource"/>
<document>
<entity name="file"
processor="FileListEntityProcessor"
dataSource="null"
fileName=".*pdf"
rootEntity="false"
baseDir="/mainDir"
recursive="true" >
<field column="file" name="fileName"/>
<field column="fileAbsolutePath" name="fileAbsolutePath"/>
<field column="fileDir" name="fileDir"/>
<entity name="pdf" processor="TikaEntityProcessor" url="${file.fileAbsolutePath}" format="text">
<field column="title" name="title"/>
<field column="text" name="_text_"/>
</entity>
</entity>
</document>
</dataConfig>
Я запустил DIH, он сработал, но я понятия не имею, как добавить / обновить один файл pdf. Как лучше всего зафиксировать изменения в index. Позже node.js API должен уведомить solr об изменениях.