Как разобрать документ BIbtex, используя Java / Lucene - PullRequest
0 голосов
/ 01 апреля 2019

У меня есть файл BibTex, из которого нам нужно извлечь документы, а затем отправить их через индексатор на основе lucene. Проблема заключается в том, что, насколько я и мой партнер, можем сказать, что нет встроенного способа извлечения отдельных документов из файла .bib без жесткого кодирования его в java с множеством вложенных циклов, ветвлений и буферизованного читателя.

Кто-нибудь знает иначе, есть ли что-то встроенное в lucene для непосредственного анализа / индексации файла .bib?

Мы уже рассмотрели, что нужно сделать самим, это кажется очень сложным решением очень простой проблемы. Мы можем только утверждать, что в отношениях между файлами Lucene и BibTex должно быть что-то, чего нам не хватает.

TLDR: нам нужно индексировать документы в файле BibTex с использованием lucene без жесткого кодирования синтаксического анализатора.

...