Nest Solr XPathEntityProcessor внутри TikaEntitiyProcessor - PullRequest
0 голосов
/ 12 марта 2019

Довольно новый для Solr.Я использовал Solr DIH с TikeEntitiyProcessor для извлечения данных из локального источника D: \ foo \ release.Мне нужно отредактировать путь к файлу, который будет переписан как http://, Я пробовал UpdateHandler и XPathEntityProcessor в разное время.Это должно быть сделано до фиксации индекса.Это мой DIH XML-файл.

<dataConfig>
    <dataSource type="BinFileDataSource" />
    <document>
            <entity name="files" dataSource="null" rootEntity="false"
            processor="FileListEntityProcessor"
            baseDir="d:\normalized\webcontent\bibleforchildren.org" fileName=".*\.(DOC)|(PDF)|(pdf)|(doc)|(docx)|(ppt)|(pptx)|(xls)|(xlsx)|(txt)|(htm)|(html)"
            onError="skip"
            recursive="true">
                <field column="fileAbsolutePath" name="id" />
                <field column="fileSize" name="size" />
                <field column="fileLastModified" name="lastModified" />
                <entity
                    name="documentImport"
                    processor="TikaEntityProcessor"
                    url="${files.fileAbsolutePath}"
                    format="xml">
                    <field column="file" name="fileName"/>
                    <field column="description" name="description" meta="true"/>
                    <field column="title" name="title" meta="true"/>
					<field column="mime_type" name="type" meta="true"/>
                    <field column="text" name="fulltext"/>
					<field column="keywords" name="keywords" meta="true"/>
					<entity name="rec" processor="XPathEntityProcessor" url="data.xml" forEach="/xml" dataSource="main" transformer="RegexTransformer" query="select url" from="id"/>
					<field column="urls" regex="^[a-z]:\\\w+\\\w+\\" sourceColName="url" />
                </entity>
        </entity>
    </document>
</dataConfig>
Есть предложения?И я не уверен, что кому-то нужно будет просматривать мои файлы solrconfig и schema.Я могу отредактировать сообщение, если необходимо.
...