Селен сам по себе не может помочь вам в этом случае, хотя ваш обязательный язык поможет вам.
Вам необходим Java Tesseract API.
Код для извлечения текста:
public String getImgText(String imageLocation) {
ITesseract instance = new Tesseract();
try
{
String imgText = instance.doOCR(new File(imageLocation));
return imgText;
}
catch (TesseractException e)
{
e.getMessage();
return "Error while reading image";
}
}
Если вы используете maven для своего проекта, просто добавьте эту зависимость:
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.2.1</version>
</dependency>
ПодробнееСправка: Извлечение текста из изображения