У меня есть тысячи PDF-файлов (отсканированные и текстовые). Мне нужно извлечь детали из них. Я использую Tesseract OCR во всех файлах, и это занимает больше времени, чем обычное извлечение текста. Как решить эту проблему в python?
У меня есть тысячи PDF-файлов (отсканированные и текстовые). Мне нужно извлечь детали из них. Я использую Tesseract OCR во всех файлах, и это занимает больше времени, чем обычное извлечение текста.
Как решить эту проблему в python?