xpath выражение для выбора родителя с дочерними узлами - PullRequest
0 голосов
/ 25 января 2012

В настоящее время я использую YQL для извлечения содержимого Википедии с использованием xpath.

Выражение xpath, которое я сейчас использую, - \\p. Это выражение выбирает все узлы абзаца, удаляя все дочерние узлы, например <a>, <sup>, <strong> и т.д ..

Благодаря этому я получаю вывод на футбольную страницу Википедии, как это. Ссылка здесь

В этом выводе ссылки удалены.

Из Википедии, свободной энциклопедии

. Для других целей см.

или футбол,,,,, и. Некоторые из множества различных игр, известных как футбол.Слева сверху вниз, справа внизу:

все, в различной степени, включают мяч с ногой, чтобы забить a.Наиболее популярным из этих видов спорта во всем мире чаще называют просто «футбол» или «футбол».Безоговорочно это слово относится к любой форме футбола, наиболее популярной в региональном контексте, в котором встречается это слово, включая,,,, и другие связанные игры.Эти разновидности футбола известны как футбольные «коды»...................... и более

Ожидаемый результат

Из Википедии, свободной энциклопедии

Для других целей, см. Футбол (значения) .

Некоторые из множества различных игр, известных как футбол.Сверху слева внизу справа: Ассоциация футбола или футбола , Австралийские правила футбола , Международные правила футбола , регби , Лига регби и Американский футбол .

Футбол Спорт Все задействуют, в различной степени, удар ногой мяч ногой дозабить гол.Самым популярным из этих видов спорта во всем мире является футбольный союз, более известный как просто «футбол» или «футбол».Безусловно, слово «футбол» применяется к любой форме футбола, наиболее популярной в региональном контексте, в котором встречается это слово, включая американский футбол, Австралийский футбол, правила , Канадский футбол , Гэльский футбол , регби , регби 1 и другие похожие игры.Эти разновидности футбола известны как футбольные «коды».

(более смелые слова - это те, у которых есть ссылки)

Итак, как извлечь абзац вместе сего дочерние узлы ??Я новичок в xpath

1 Ответ

0 голосов
/ 25 января 2012

Правильный ответ - //p/descendant-or-self::*, чтобы иметь родительский и дочерний узлы.

...