В настоящее время я работаю в одном наборе данных, который содержит более 10000+ новостей, и я хочу удалить предложения, содержащие только одно слово.Я искал nltk и textcleaner, однако мне не удалось удалить предложения, содержащие только одно слово.
Например, допустим, скажем: Ввод: Я хочу удалить предложение одним словом.Хорошо.Хорошо. Давайте сделаем это. Вывод: Я хочу удалить предложение одним словом.Давайте сделаем это.
Код:
import textcleaner as tc
import nltk
import numpy as np
datafile = np.genfromtxt("f12filtered.txt", encoding='utf-8', delimiter=".")
data = tc.document(datafile)
data.remove_stpwrds()