Как рассчитать, если группа слов находится в документе PDF? - PullRequest
0 голосов
/ 01 мая 2020

Я очень новичок в Python, поэтому, пожалуйста, дайте мне знать, если на этот вопрос уже был дан ответ. Я искал часы и не мог найти его, поэтому решил просто попробовать здесь.

Для моей диссертации мне нужно извлечь ключевые слова из PDF-документа. До сих пор все шло хорошо, я написал код для подсчета отдельных слов в списке документов PDF. Однако мне также нужно искать группы слов, например; «Управление рисками предприятия».

Какое расширение можно использовать для подсчета вхождения слов в PDF-документе?

Часть кода:

search_list = ['risk', 'management', 'ERM']

 #Loop for words starts here
    for i in search_list:
        search_word_count = 0
        #Loop for reading the pdf document starts here
        for pageNum in range(1, pdfReader.numPages):
            pageObj = pdfReader.getPage(pageNum)
            text = pageObj.extractText().encode('utf-8')
            #Convert text to lower case letters and split words (other command than split for 3 words)
            search_text = text.lower().split()
             #loop for counting words starts here
                if i in word.decode("utf-8"):
                    search_word_count += 1
        print("The word {} was found {} times".format(i, search_word_count))
        

Также кто-нибудь знает, как решить тот факт, что я разделил слова?

Заранее большое спасибо!

...