В настоящее время я использую YQL для извлечения содержимого Википедии с использованием xpath.
Выражение xpath, которое я сейчас использую, - \\p
. Это выражение выбирает все узлы абзаца, удаляя все дочерние узлы, например <a>
, <sup>
, <strong>
и т.д ..
Благодаря этому я получаю вывод на футбольную страницу Википедии, как это. Ссылка здесь
В этом выводе ссылки удалены.
Из Википедии, свободной энциклопедии
. Для других целей см.
или футбол,,,,, и. Некоторые из множества различных игр, известных как футбол.Слева сверху вниз, справа внизу:
все, в различной степени, включают мяч с ногой, чтобы забить a.Наиболее популярным из этих видов спорта во всем мире чаще называют просто «футбол» или «футбол».Безоговорочно это слово относится к любой форме футбола, наиболее популярной в региональном контексте, в котором встречается это слово, включая,,,, и другие связанные игры.Эти разновидности футбола известны как футбольные «коды»...................... и более
Ожидаемый результат
Из Википедии, свободной энциклопедии
Для других целей, см. Футбол (значения) .
Некоторые из множества различных игр, известных как футбол.Сверху слева внизу справа: Ассоциация футбола или футбола , Австралийские правила футбола , Международные правила футбола , регби , Лига регби и Американский футбол .
Футбол Спорт Все задействуют, в различной степени, удар ногой мяч ногой дозабить гол.Самым популярным из этих видов спорта во всем мире является футбольный союз, более известный как просто «футбол» или «футбол».Безусловно, слово «футбол» применяется к любой форме футбола, наиболее популярной в региональном контексте, в котором встречается это слово, включая американский футбол, Австралийский футбол, правила , Канадский футбол , Гэльский футбол , регби , регби 1 и другие похожие игры.Эти разновидности футбола известны как футбольные «коды».
(более смелые слова - это те, у которых есть ссылки)
Итак, как извлечь абзац вместе сего дочерние узлы ??Я новичок в xpath