Файлы TeX должны быть полностью интерпретированы, прежде чем любой вид текста может быть надежно извлечен. Написание полноценного интерпретатора TeX на C # может оказаться реальной задачей, поэтому вместо этого я бы предложил использовать существующий интерпретатор, который может выводить формат, который может быть проанализирован более легко, например HTML.
Возможно, вы захотите написать регулярное выражение, чтобы просто убрать все \command
, но это не даст вам очень точного результата, потому что некоторые команды выдают собственный текст, а [реже] некоторые команды поглощают текст, который следует за этим. Кроме того, вы столкнетесь с проблемами, когда символы меняют коды категорий, некоторые символы могут быть в активном коде категории, то есть сами по себе символы могут быть командами.