Question

У меня есть PDF, который я прочитал через пакет Tika в python. Кажется, Тика может читать только весь PDF, и мне нужно прочитать только первую страницу.

Мой код выглядит так:

from tika import parser
raw = parser.from_file(pdfname)
rawtext = raw['content']

Я бы хотел разделить необработанный текст по ключевым словам start и end. Как мне это сделать?

Marcos · Answer 1 · 15 марта 2020

Вы можете использовать regex для выбора интересующего вас текста, например:

import re


raw_text = 'this is a sample of text'
start = 'is'
end = 'of'

start_index = re.search(r'\b' + start + r'\b', raw_text).start()
end_index = re.search(r'\b' + end + r'\b', raw_text).end()
section_of_text = raw_text[start_index:end_index]
print(section_of_text)

>>> "is a sample of"

Обрезка строки на основе начального и конечного ключевых слов строки python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обрезка строки на основе начального и конечного ключевых слов строки python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы