Сначала я прошу прощения у других людей, которые ответили на этот вопрос, потому что я скажу кое-что о предыдущем вопросе OP.
О OP, вы не должны копировать код, не задумываясь.
Content
это страница, которую вы уже прочитали.Это означает, что ваш код должен быть read_file = content
.И почему я пишу read_file = #
, потому что я думаю, что вы добавите дополнительный код.Но он не должен снова читать тот же файл.
with open(file, 'rb') as pdfFileObj:
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
content = pageObj.extractText()
read_file = open(file,'rb')
#^---^---^ according to your former question, `read_file` should be `content`
И будут другие проблемы.Вы должны добавить continue
после print("wow")
.
elif re.search(r"/jupyter",file):
print("wow")
elif re.search(r"/scikit",file):
print("wow")
в противном случае ваш код продолжит работать, тогда произойдет ошибка.потому что ты ничего не читал.
if regex1.findall(read_file) or regex2.findall(read_file):
print(read_file)