Существует ли метод PyPDF2 для определения, является ли текст, читаемый из PDF, жирным шрифтом? - PullRequest
0 голосов
/ 24 января 2020

Я занимаюсь поиском в Интернете глоссариев и словарей для онлайн-словаря, и некоторая информация, которую я пытаюсь получить, представлена ​​в формате PDF. Я использую PyPDF2 для чтения текста из PDF в строку с целью классификации информации в 2 столбца (Термины, Определения) Pandas DataFrame. Поскольку нет общего разделителя для разделения текста, мне было интересно, можно ли разделить текст на текст полужирный . Разделение на '\ n' не вариант, так как PDFreader имеет тенденцию вставлять '\ n' в произвольном порядке.

Вот образец глоссария:

загрязнитель - вещество, выбрасываемое в воздух.

код загрязнителя - пятизначный идентификационный код загрязнителя git. Список доступен на веб-странице EAS:.

устройство управления - См. Устройство борьбы с выбросами.

Код, который я получил до сих пор:

import PyPDF2

reader = PyPDF2.PdfFileReader(pdf)
print(reader.numPages)

num_pages = reader.numPages
count = 0
text =""

while count < num_pages:
    pageObj = reader.getPage(count)
    count += 1
    text += pageObj.extractText()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...