Как удалить весь латекс из текста википедии? - PullRequest
0 голосов
/ 11 ноября 2019

Я удалил тексты из Википедии, теперь я хотел бы провести анализ текста на них. Я хотел бы убрать из них весь латекс.

Я пробовал какое-то регулярное выражение, но не смог найти того, которое сработает.

Texts that I want to preserve. Remove the messy latex below.

        2


    {\displaystyle 2}
  ⁄

            3


    {\displaystyle {\sqrt {3}}}
  . I want to preserve some texts here: (Similar latex as above)

    2


    {\displaystyle 2}
  ⁄

            3


    {\displaystyle {\sqrt {3}}}

Я ожидал быРезультатом должны быть все действительные тексты. В случае выше, (Тексты, которые я хочу сохранить. Удалите грязный латекс ниже. Я хочу сохранить некоторые тексты здесь: (Подобный латексу, как указано выше))

1 Ответ

0 голосов
/ 11 ноября 2019

С регулярными выражениями вам понадобится регулярное выражение, соответствующее сбалансированным скобкам { ... }. Это невозможно практически во всех реализациях Regex, см. Регулярное выражение для соответствия сбалансированным круглым скобкам

Вместо этого вам следует написать скрипт, который читает ваш файл построчно, ищет {\displaystyleи находит соответствующую закрывающую фигурную скобку.

...