Я пытаюсь получить простой текст из Википедии, но я все еще получаю математику / уравнения / латекс.Есть ли способ исключить всех тех, кто с URL?Я посмотрел вокруг на все варианты, и я не могу найти что-нибудь для этого.Когда я анализирую страницу исчисления, я получаю уравнения, идущие вниз по странице с кучей \ n и пробелов ... потому что это текст, который проходит.Если нет способа удалить его с помощью URL, есть ли у кого-нибудь регулярное выражение или функция для удаления этих разделов в JavaScript?
Используя URL https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&explaintext&redirects=1&titles=Calculus
Я получаю:
d
y
{\\displaystyle dy}
were taken to be infinitesimal, and the derivative
d
y
/
Я создал несколько базовых выражений Reg, но я не могу гарантировать, что формат WIKI останется стандартным для всех страниц, и я мог бы фактически удалить желаемый текстовый контент:
.replace(/(\\n)\s{2,}/gm, "\n") .replace(/\n{2,}/gm, "\n\n").replace(/\n{.+}\n/gm, "\n\n").replace(/\n{2,}/gm, "\n\n")