Я занимаюсь поиском в Интернете глоссариев и словарей для онлайн-словаря, и некоторая информация, которую я пытаюсь получить, представлена в формате PDF. Я использую PyPDF2 для чтения текста из PDF в строку с целью классификации информации в 2 столбца (Термины, Определения) Pandas DataFrame. Поскольку нет общего разделителя для разделения текста, мне было интересно, можно ли разделить текст на текст полужирный . Разделение на '\ n' не вариант, так как PDFreader имеет тенденцию вставлять '\ n' в произвольном порядке.
Вот образец глоссария:
загрязнитель - вещество, выбрасываемое в воздух.
код загрязнителя - пятизначный идентификационный код загрязнителя git. Список доступен на веб-странице EAS:.
устройство управления - См. Устройство борьбы с выбросами.
Код, который я получил до сих пор:
import PyPDF2
reader = PyPDF2.PdfFileReader(pdf)
print(reader.numPages)
num_pages = reader.numPages
count = 0
text =""
while count < num_pages:
pageObj = reader.getPage(count)
count += 1
text += pageObj.extractText()