Я использую следующий код для подсчета количества фраз в файле do c:
phrases = ['yellow bananas']
clean_text = " ".join(re.findall(r'\w+(?:-\w+)*', doc))
for phrase in phrases:
if phrase in clean_text:
if phrase not in list_of_phrases:
list_of_phrases[phrase] = clean_text.count(phrase)
else:
list_of_phrases[phrase] += clean_text.count(phrase)
Вопрос в том, возможно ли получить целое предложение вместо одного, два, три и т. д. c слов до / после ключевых слов, которые я ищу?
РЕДАКТИРОВАТЬ:
Пример do c:
Yellow bananas are nice. I like fruits. Nobody knows how many fruits there are out there. There are yellow bananas and many other fruits. Bananas, apples, oranges, mangos.
Ouput будет количество фраз, содержащих ключевое слово, например, «желтые бананы» в данном случае с 1,2,3 et c. слова до и после ключевых слов.