Как успешно конвертировать математические статьи в обычный текст - PullRequest
0 голосов
/ 20 ноября 2018

Цели:

1. Разработать канонический метод использования простого текста для уникального представления документов STEM в целом и математических работ в частности.

Разработка программного обеспечения, которое может конвертировать существующие печатные документы STEM в эту каноническую форму со 100% точностью.Обратите внимание, что я не могу допустить никакой неточности просто потому, что как отдельное лицо я не могу вычитать миллионы бумаг, чтобы исправить неточность в конверсии, даже в среднем на 0,001 ошибки на бумагу.

Проблемы:

  1. Все программы PDF в текст, TeX в текст и т. Д., Которые я видел здесь, в Stackoverflow и в других местах, например PyMuPDF, не работают из-за математических символов, которые не могут быть обработаны.

2.PDF действительно сложно обработать.

3.TeX действительно сложно обработать из-за многочисленных макросов Авторы статей STEM стремятся добавлять в свои исходные файлы, которые имеют тенденциюперерыв LatexML и другие преобразователи.Мои собственные документы очень легко обрабатывать, потому что я не использую много новых команд.Однако есть много авторов, чьи работы содержат макросы \def, которые не могут быть обработаны даже de-macro.Чтобы фактически заставить TeX работать, при условии, что я вообще смогу получить исходные файлы большинства статей о arXiv, мне придется написать собственный вариант движка TeX, который каким-то образом расширит все необходимые макросы и создаст простой текстовый документ.

Есть ли другой способ решить эту проблему?В настоящее время целевой формат, который я предпочитаю, это в основном простой текст + математические символы, написанные на LaTeX, без форматирования, отличного от семантически значимых, таких как \mathcal{A} и A как отдельные объекты.Я могу научиться настраивать нейронную сеть, чтобы научить ее понимать эти печатные математические символы, предполагая, что мой ноутбук достаточно мощный.Буквально менее 200 символов необходимо изучить сети, и их формы должны быть очень легко распознать из-за отсутствия вариаций.Должен ли я сделать это?

1 Ответ

0 голосов
/ 20 ноября 2018

Да, вы можете попробовать это.Распознавание символов с последующим преобразованием их в формат LaTeX (например, для каждого квадратного корня написать \ sqrt).

Вы также можете обратиться к вопросу признания к этой статье:

https://www.sciencedirect.com/science/article/abs/pii/003132039090113Y -

Распознавание рукописных символов

Torfinn Taxt, Jórunn B.Ólafsdóttir, MortenDæhlen∥

http://neuralnetworksanddeeplearning.com/chap1.html - здесь вы можете узнать больше, с примерами кода, о реализации нейронной сети для рукописных рукописей.

...