Я хочу получить все статьи, которые ссылаются на статью, но только если ссылка появляется в определенном разделе статьи, в которой есть ссылка. Обычно этот «определенный раздел» является первым абзацем текста. Если мы используем первый абзац текста в качестве примера, для статьи https://en.wikipedia.org/wiki/Directed_graph, я должен получить статью:
https://en.wikipedia.org/wiki/Directed_acyclic_graph'
Который имеет этот текст в качестве первого абзаца:
В математике, в частности, в теории графов и информатике,
направленный ациклический граф (DAG / ˈdæɡ / (об этом звуковой список)), является
конечный ориентированный граф без направленных циклов. То есть состоит
конечного числа вершин и ребер (также называемых дугами), с каждым ребром
направлены от одной вершины к другой, так что нет никакого способа
начать с любой вершины v и следовать последовательно направленной последовательности
ребра, которые в конечном итоге снова возвращаются к v. Эквивалентно, DAG - это
ориентированный граф с топологическим порядком, последовательность
вершины такие, что каждое ребро направлено от более раннего к более позднему в
последовательность.
но не https://en.wikipedia.org/wiki/Graph_(discrete_mathematics)
Который имеет ссылку на https://en.wikipedia.org/wiki/Directed_graph в последующих частях статьи (например, см. https://en.wikipedia.org/wiki/Graph_(discrete_mathematics)#Directed_graph), но не в первом абзаце.
Как я могу это сделать? Я не против использования какого-либо метода и предпочел бы использовать PHP в качестве языка программирования. Больше беспокоюсь о том, какие платформы / API / инструменты предоставляет Википедия, которые могут помочь мне в этом начинании, например. Какая точка входа или методы API Википедии были бы полезны для получения ссылок, которые существуют только в некоторой части статьи, например. Первый абзац