Разбор Wikipedia Math - PullRequest
       25

Разбор Wikipedia Math

0 голосов
/ 24 октября 2018

Я пытаюсь получить простой текст из Википедии, но я все еще получаю математику / уравнения / латекс.Есть ли способ исключить всех тех, кто с URL?Я посмотрел вокруг на все варианты, и я не могу найти что-нибудь для этого.Когда я анализирую страницу исчисления, я получаю уравнения, идущие вниз по странице с кучей \ n и пробелов ... потому что это текст, который проходит.Если нет способа удалить его с помощью URL, есть ли у кого-нибудь регулярное выражение или функция для удаления этих разделов в JavaScript?

Используя URL https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&explaintext&redirects=1&titles=Calculus

Я получаю:

        d
        y


    {\\displaystyle dy}
   were taken to be infinitesimal, and the derivative 



        d
        y

          /

Я создал несколько базовых выражений Reg, но я не могу гарантировать, что формат WIKI останется стандартным для всех страниц, и я мог бы фактически удалить желаемый текстовый контент:

.replace(/(\\n)\s{2,}/gm, "\n") .replace(/\n{2,}/gm, "\n\n").replace(/\n{.+}\n/gm, "\n\n").replace(/\n{2,}/gm, "\n\n")
...