Обычно требуется, чтобы некоторая обработка LaTeX была выполнена для текста, например, у вас есть
\ newcommand * {\ SO} {StackOverflow \ index {StackOverflow} \ xspace}
...
Я трачу много времени на \ SO, бла-бла ....
Простая фильтрация текстового абзаца здесь не даст текст, подобный ожидаемому результату, когдаон содержит любые макросы.
Поэтому попытка извлечь что-либо непосредственно из файла * .tex обычно оставляет желать лучшего из результата.Поэтому обычно лучше работать с выходом из латексной обработки.Я бы порекомендовал конвертировать латекс в HTML, а затем из HTML в текст.Возможно, вам понадобится ручная очистка, но я думаю, что это должно быть относительно близко.