Извлечение операторов, содержащих определенную фразу, из текстового объектного файла с использованием NLTK - PullRequest
0 голосов
/ 17 июня 2019

Я работал над созданием списка, который содержит предложения с шаблоном, используя NLTK. Моя проблема в том, что я не могу создать список вывода

Я использовал findall(), который использует регулярные выражения, чтобы найти то, что мне нужно. Например, если регулярное выражение или шаблон был «Он был», мне нужно получить что-то вроде: [«Он был хорош», «Они сказали, что он был там», «Там он был»], где все эти утверждения включают в себя все случаи Фраза «Он был», у меня также возникают проблемы с игнорированием знаков препинания и без учета регистра

f=open('testing.txt')
raw=f.read()
tokens = nltk.word_tokenize(raw)
data = nltk.Text(tokens)
bla = []
bla = data.findall(r"<.*><He><was><.*>")

Выводом является распечатка всех утверждений, содержащих Он, включая знаки препинания в предложениях и с учетом регистра. Но бла пуст, так как findall() только печатает, ничего не возвращает

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...