Я работал над созданием списка, который содержит предложения с шаблоном, используя NLTK
. Моя проблема в том, что я не могу создать список вывода
Я использовал findall()
, который использует регулярные выражения, чтобы найти то, что мне нужно. Например, если регулярное выражение или шаблон был «Он был», мне нужно получить что-то вроде: [«Он был хорош», «Они сказали, что он был там», «Там он был»], где все эти утверждения включают в себя все случаи Фраза «Он был», у меня также возникают проблемы с игнорированием знаков препинания и без учета регистра
f=open('testing.txt')
raw=f.read()
tokens = nltk.word_tokenize(raw)
data = nltk.Text(tokens)
bla = []
bla = data.findall(r"<.*><He><was><.*>")
Выводом является распечатка всех утверждений, содержащих Он, включая знаки препинания в предложениях и с учетом регистра. Но бла пуст, так как findall()
только печатает, ничего не возвращает