xpath последняя ссылка на дампы Викимедиа - PullRequest
1 голос
/ 16 ноября 2011

Как бы вы пошли, чтобы получить последнюю ссылку для скачивания для страничных аккаунтов от

http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/

с использованием XPath?

http://dumps.wikimedia.org/other/pagecounts-raw/2011/2011-11/pagecounts-20111115-140000.gz

Я пошел с (Механизировать):

agent.get(url).search("//*[@href[contains(.,'pagecounts')]]")#.last 

Но у меня все еще есть проблемы с получением последнего элемента в выражении XPath.

1 Ответ

1 голос
/ 16 ноября 2011

Чтобы выбрать последний узел из коллекции в XPath, используйте

[position()=last()]

или даже просто

[last()]

Поскольку вы хотите извлечь последний якорь из всего набора документов, используйте это (проверено в PHP, но это должно быть сделано в Mechanize)

(//a[starts-with(@href, 'pagecounts')])[last()]
...