Сначала я объясню свою дилемму: у меня есть несколько тысяч файлов powerpoint (.ppt), которые мне нужны для извлечения текста. Проблема в том, что текст неорганизован в файле, и когда он читается как полная страница, он не имеет смысла для того, что мне нужно (это читается в примере: строка 1, строка 3, строка 2, строка 4, строка 5).
Я использовал tika
для чтения файлов изначально. Затем я подумал, что если я преобразую в pdf, используя glob
и win32com.client
, мне повезет больше, но это в основном тот же результат. Изображение здесь является примером того, на что похож текст.
Так что теперь моя идея сейчас заключается в том, могу ли я разделить pdf или ppt по пикселам (и при необходимости сохранить в отдельные временные файлы, открыть и прочитать таким образом) я могу держать все в порядке и получить то, что мне нужно. Хотя текст перемещается внутри каждого блока, черные контурные блоки всегда находятся примерно в одном и том же месте.
Я не могу найти ничего, чтобы разделить отдельную страницу PDF, только несколько страниц на одну страницу. У кого-нибудь есть идеи, как go сделать это?
Мне нужно прочитать текст в первом блоке вместе (строка 1 и строка 2) и загрузить в словарь или другой контейнер, и то же самое для второй коробки. Для справки в Powerpoint есть только один слайд.