У меня никогда не было такой задачи по очистке веб-страницы, как у меня с этой конкретной. Я пытаюсь разобрать отзывы со страницы результатов API Omgili. Пример страницы находится здесь:
Omgili
Ранее я очистил множество страниц, но точный XPATH результатов этой страницы действительно сложен, поскольку нет имен классов DIV, и есть как 5 вложенных таблиц. Мне бы хотелось, чтобы XPath возвращал все строки таблицы для каждого результата (например, первым результатом будет TR, содержащий первый отзыв: «Делает именно то, что нужно - [03 февраля 2010]» и его содержимое.
Любая помощь в этом, или, по крайней мере, указать мне на ресурс, который может помочь? Я пробовал гаджет селектор CHrome, но даже это не работает для этого сайта.
В настоящее время я пробовал следующее, но это не удалось: //table//table//tr[4]//table/tr/td[1]/table/tr