Я очень новичок в Python, поэтому, пожалуйста, дайте мне знать, если на этот вопрос уже был дан ответ. Я искал часы и не мог найти его, поэтому решил просто попробовать здесь.
Для моей диссертации мне нужно извлечь ключевые слова из PDF-документа. До сих пор все шло хорошо, я написал код для подсчета отдельных слов в списке документов PDF. Однако мне также нужно искать группы слов, например; «Управление рисками предприятия».
Какое расширение можно использовать для подсчета вхождения слов в PDF-документе?
Часть кода:
search_list = ['risk', 'management', 'ERM']
#Loop for words starts here
for i in search_list:
search_word_count = 0
#Loop for reading the pdf document starts here
for pageNum in range(1, pdfReader.numPages):
pageObj = pdfReader.getPage(pageNum)
text = pageObj.extractText().encode('utf-8')
#Convert text to lower case letters and split words (other command than split for 3 words)
search_text = text.lower().split()
#loop for counting words starts here
if i in word.decode("utf-8"):
search_word_count += 1
print("The word {} was found {} times".format(i, search_word_count))
Также кто-нибудь знает, как решить тот факт, что я разделил слова?
Заранее большое спасибо!