Цели:
1. Разработать канонический метод использования простого текста для уникального представления документов STEM в целом и математических работ в частности.
Разработка программного обеспечения, которое может конвертировать существующие печатные документы STEM в эту каноническую форму со 100% точностью.Обратите внимание, что я не могу допустить никакой неточности просто потому, что как отдельное лицо я не могу вычитать миллионы бумаг, чтобы исправить неточность в конверсии, даже в среднем на 0,001 ошибки на бумагу.
Проблемы:
- Все программы PDF в текст, TeX в текст и т. Д., Которые я видел здесь, в Stackoverflow и в других местах, например PyMuPDF, не работают из-за математических символов, которые не могут быть обработаны.
2.PDF действительно сложно обработать.
3.TeX действительно сложно обработать из-за многочисленных макросов Авторы статей STEM стремятся добавлять в свои исходные файлы, которые имеют тенденциюперерыв LatexML
и другие преобразователи.Мои собственные документы очень легко обрабатывать, потому что я не использую много новых команд.Однако есть много авторов, чьи работы содержат макросы \def
, которые не могут быть обработаны даже de-macro
.Чтобы фактически заставить TeX работать, при условии, что я вообще смогу получить исходные файлы большинства статей о arXiv, мне придется написать собственный вариант движка TeX, который каким-то образом расширит все необходимые макросы и создаст простой текстовый документ.
Есть ли другой способ решить эту проблему?В настоящее время целевой формат, который я предпочитаю, это в основном простой текст + математические символы, написанные на LaTeX, без форматирования, отличного от семантически значимых, таких как \mathcal{A}
и A
как отдельные объекты.Я могу научиться настраивать нейронную сеть, чтобы научить ее понимать эти печатные математические символы, предполагая, что мой ноутбук достаточно мощный.Буквально менее 200 символов необходимо изучить сети, и их формы должны быть очень легко распознать из-за отсутствия вариаций.Должен ли я сделать это?