Каков XPATH этих строк таблицы на этой странице?Я не могу понять это! - PullRequest
1 голос
/ 10 ноября 2010

У меня никогда не было такой задачи по очистке веб-страницы, как у меня с этой конкретной. Я пытаюсь разобрать отзывы со страницы результатов API Omgili. Пример страницы находится здесь:

Omgili

Ранее я очистил множество страниц, но точный XPATH результатов этой страницы действительно сложен, поскольку нет имен классов DIV, и есть как 5 вложенных таблиц. Мне бы хотелось, чтобы XPath возвращал все строки таблицы для каждого результата (например, первым результатом будет TR, содержащий первый отзыв: «Делает именно то, что нужно - [03 февраля 2010]» и его содержимое.

Любая помощь в этом, или, по крайней мере, указать мне на ресурс, который может помочь? Я пробовал гаджет селектор CHrome, но даже это не работает для этого сайта.

В настоящее время я пробовал следующее, но это не удалось: //table//table//tr[4]//table/tr/td[1]/table/tr

Ответы [ 3 ]

2 голосов
/ 10 ноября 2010

Я хотел бы обмануть (если это работает!) И заметить, что ссылки review являются единственными ссылками на этой странице с целями, которые начинаются с jmp. Так

//tr[td/span/a[starts-with(@href, 'jmp')]]

должны быть строки, которые вы хотите.

0 голосов
/ 25 ноября 2010

Это также работает (после идеи AakashM ):

//a[starts-with(@href, '/jmp')]/ancestor::tr[1]

0 голосов
/ 11 ноября 2010

Как насчет этого запроса:

//form [Name='f']//table[2]//table[3]//table/tr

Ну, я перевел его с HTQL с помощью iRobotSoft Web Scraper:

<form (Name='f')>1.<table>2.<table>3.<table>1.<tr>
...