Как извлечь текст из файла .tex
с помощью Apache Tika? Файл примера находится в http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika может правильно определить тип контента как application/x-tex
, но ничего из него не извлекает.
Я попробовал команду
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
, а также следующий фрагмент кода:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);