Selenium, Chrome WebDriver, Java.
Попытка циклически бросить строки с помощью следующего кода и получить неожиданное поведение.
List<WebElement> divs = driver.findElementsByXPath("//div[@class = \"w-dyn-items\"][contains(.//*,'2019')]/div[@class = \"w-dyn-item\"][position() < 30]")
for (WebElement div : divs) {
DocumentWrapper doc = new DocumentWrapper()
try {
//grab document stuff
doc.title = div.findElementByXPath("//h1").getText()
log.info("\tTitle: ${doc.title}")
doc.dateStr = div.findElementByXPath("//div[@class=\"meta-tag\"]").getText()
log.info("\tDate: ${doc.dateStr}")
String google_drive_link = div.findElementByXPath("//a[@class=\"drop-link\" and contains(. ,\"PDF Agenda\")]").getAttribute('href')
log.info("\traw Url: ${google_drive_link}")
Результаты, которые я получаю, просто повторяют одно и то же название, дату и ссылку снова и снова
2019-03-18 16:47:39 [main] INFO :: Title: City Council & Board/Commission Meetings
2019-03-18 16:47:39 [main] INFO :: Date: DECEMBER 23, 2019
2019-03-18 16:47:39 [main] INFO :: Url: https://drive.google.com/uc?export=download&id=1aAivoeNydSf761Hmih7lHWH7rLXkhuzV
2019-03-18 16:47:39 [main] INFO :: Title: City Council & Board/Commission Meetings
2019-03-18 16:47:39 [main] INFO :: Date: DECEMBER 23, 2019
2019-03-18 16:47:39 [main] INFO :: raw Url: https://drive.google.com/open?id=1aAivoeNydSf761Hmih7lHWH7rLXkhuzV
2019-03-18 16:47:39 [main] INFO :: Title: City Council & Board/Commission Meetings
2019-03-18 16:47:39 [main] INFO :: Date: DECEMBER 23, 2019
2019-03-18 16:47:39 [main] INFO :: Url: https://drive.google.com/uc?export=download&id=1aAivoeNydSf761Hmih7lHWH7rLXkhuzV
2019-03-18 16:47:39 [main] INFO :: Title: City Council & Board/Commission Meetings
2019-03-18 16:47:39 [main] INFO :: Date: DECEMBER 23, 2019
2019-03-18 16:47:39 [main] INFO :: raw Url: https://drive.google.com/open?id=1aAivoeNydSf761Hmih7lHWH7rLXkhuzV
2019-03-18 16:47:39 [main] INFO :: Title: City Council & Board/Commission Meetings
2019-03-18 16:47:39 [main] INFO :: Date: DECEMBER 23, 2019
2019-03-18 16:47:39 [main] INFO :: Url: https://drive.google.com/uc?export=download&id=1aAivoeNydSf761Hmih7lHWH7rLXkhuzV
Теперь это технически не строки таблицы, а серия элементов div. Но разве они не должны работать одинаково, и если нет, то кто-нибудь может объяснить мне, почему это не должно работать?
Сайт, за которым я беру данные с https://www.cityofalhambra.org/city-meetings