Если у меня есть такое предложение:
text = "The sun shine brightly, but is very cold today!"
Я могу использовать сплит:
newArray = text.split(" ")
print (newArray)
Конец результата будет:
['The', 'sun', 'shine', 'brightly,', 'but', 'is', 'very', 'cold', 'today!']
Но, если мне нужно разделить не только «Пробел», но, например, «Пробел», «Запятая» и «Ввод».
Как я могу это сделать?
Чтобы быть более понятным, вот мой пример кода:
import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
import re
def extract_text_from_pdf(pdf_path):
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
if text:
return text
text = extract_text_from_pdf('file.pdf')
newArray = text.split(" ")
print (newArray)