Извлечение текста из файлов .tex с помощью Tika - PullRequest
1 голос
/ 15 марта 2011

Как извлечь текст из файла .tex с помощью Apache Tika? Файл примера находится в http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika может правильно определить тип контента как application/x-tex, но ничего из него не извлекает.

Я попробовал команду

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

, а также следующий фрагмент кода:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

1 Ответ

0 голосов
/ 01 апреля 2011

Tika поддерживает обнаружение расширения файла .tex, но парсера для него пока нет, извините.

Если вы можете найти хорошую библиотеку Java (в идеале Apache Licensed) для анализа файлов .tex,тогда я бы предложил вам открыть новый запрос на улучшение в Tika JIRA (https://issues.apache.org/jira/browse/TIKA)) и запросить Tex Parser на основе этой библиотеки.

...