Не удается прочитать текст с веб-страницы с помощью селена webdriver - PullRequest
0 голосов
/ 09 июня 2018

Я не могу прочитать идентификатор электронной почты с веб-страницы ниже:

URL: https://targetstudy.com/university/2/acharya-ng-ranga-agricultural-university/

Вот мой код

driver.navigate().to(URL);
String Email = driver.findElement(By.xpath("//*[@id="site-canvas"]/div[6]/div[2]/div[1]/div/div[1]/div/table/tbody/tr/td[2]/table/tbody/tr[4]/td[2]/img")).getText();
System.out.println(Email);

1 Ответ

0 голосов
/ 09 июня 2018

Селен сам по себе не может помочь вам в этом случае, хотя ваш обязательный язык поможет вам.

Вам необходим Java Tesseract API.

Код для извлечения текста:

 public String getImgText(String imageLocation) {
      ITesseract instance = new Tesseract();
      try 
      {
         String imgText = instance.doOCR(new File(imageLocation));
         return imgText;
      } 
      catch (TesseractException e) 
      {
         e.getMessage();
         return "Error while reading image";
      }
   }

Если вы используете maven для своего проекта, просто добавьте эту зависимость:

<dependency> 
 <groupId>net.sourceforge.tess4j</groupId> 
 <artifactId>tess4j</artifactId> 
 <version>3.2.1</version> 
</dependency>   

ПодробнееСправка: Извлечение текста из изображения

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...