У меня проблема с некоторыми PDF-файлами. Мне нужно конвертировать их в изображения jpg, чтобы они были доступны для распознавания текста, но когда я конвертирую некоторые из них, Wand превращает меня в jpg, где над текстом находится черный фон. Я видел, что это общая проблема с космическими цветами. Кажется, это происходит с файлами word, преобразованными в файлы pdf, где цвета пространства стали CMYK. Тессеракт OCR принимает только космический цвет RGB. Я уже написал скрипт на Python, который конвертируется, но я бы хотел решить эту проблему. Не могли бы вы помочь мне? Благодарю.
Исходная страница pdf
Преобразование PDF в JPG