Регулярные выражения - прочитайте текст Do c и извлеките предложения с помощью специального слова c - PullRequest
0 голосов
/ 27 февраля 2020

У меня есть серия больших текстовых документов. Мне нужно прочитать их и - если появляется определенное слово - извлечь все предложение.

Итак, если я ищу слово wobble и предложение в документе - Weebles wobble but they don't fall down, я хочу извлечь это предложение.

Какой самый эффективный способ сделать это?

Я могу придумать два подхода к этому:

  1. Искать в документе слово, затем извлечь конкретное предложение; или

  2. Итерация по каждому предложению в документе. Проверьте каждое предложение на слово. Если в предложении есть слово, извлеките его.

Я бы подумал, что 1 эффективнее в вычислительном отношении, чем 2. Но не уверен, какой будет синтаксис.

Есть ли другой подход, который я не рассматриваю?

Любая помощь по эффективности и синтаксису приветствуется.

1 Ответ

1 голос
/ 27 февраля 2020

сначала вам нужно получить правильные предложения из текстового документа. Лучший способ сделать это, используя nltk.data tokenizer, сначала убедиться, что вы правильно установили python библиотеку nltk.

import nltk.data
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
txt = open("txt_file.txt")
data = txt.read()
all_sentences = tokenizer.tokenize(data)
required_sentences = []
for each_sentence in all_sentences:
    if 'wobble' in each_sentence:
        required_sentences.append(each_sentence)
print(required_sentences)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...