В настоящее время я пытаюсь извлечь объявление или резюме из любой страницы Википедии, используя XPath.Сейчас в Интернете есть много мест, где это уже было сделано: http://jimblackler.net/blog/?p=13, Как использовать XPath или xgrep для поиска информации в Википедии? .
Но когда я пытаюсьиспользование похожих выражений XPath на разных страницах приводит к странным результатам.Ради этого вопроса, давайте предположим, что я пытаюсь получить самый первый абзац на печатной странице Википедии в Бостоне: http://en.wikipedia.org/w/index.php?title=Boston&printable=yes.
Когда я пытаюсь использовать это выражение /html/body/div[@id='content']/div[@id='bodyContent']//p
, только последнийвозвращаются четыре слова абзаца «в Соединенных Штатах».
На самом деле вышеприведенное выражение можно упростить до //div/p
, но результаты будут такими же.
Как ни странно, ссылки, на которые я ссылался ранее, похоже, используют похожие методы и дают отличные результаты;Первоначально я предполагал, что это произошло из-за того, что Википедия изменила форматирование своих страниц в последние годы, но, честно говоря, я не могу найти, что не так с обоими выражениями.