Я работаю над практической задачей, основанной на выполнении в NLP с использованием python.
Ниже приведена задача, которую необходимо выполнить пошагово, чтобы получить результат.
У меня естьзавершено до шага 13 и застрял на шагах № 14 и 15 (см. ниже).
Пожалуйста, помогите мне узнать, как выполнить шаг № 14 и 15.
ЗАДАЧА
Импорт текстового корпуса коричневый .
Извлечение списка слов, связанных с текстовыми коллекциями, относящимися к жанру юмора.Сохраните результат в переменной humor_words .
Преобразуйте каждое слово списка humor_words в нижний регистр и сохраните результат в lc_humor_words .
Найдите список уникальных слов, присутствующих в lc_humor_words .Сохраните результат в lc_humor_uniq_words .
Импортируйте корпус words .
Извлеките списокслов, связанных с корпусными словами.Сохраните результат в переменной wordlist_words .
Найдите список уникальных слов, представленных в wordlist_words .Сохраните результат в wordlist_uniq_words .
Создайте экземпляр PorterStemmer с именем, porter .
Создайте экземпляр LancasterStemmer с именем lancaster .
Соедините каждое слово, присутствующее в lc_humor_uniq_words , с экземпляром переносчика и сохраните результат вlist p_stemmed
Связать каждое слово, присутствующее в lc_humor_uniq_words , с экземпляром lancaster и сохранить результат в listl_stemmed `
Отфильтровать слова из p_stemmed , которые также присутствуют в wordlist_uniq_words .Сохраните результат в p_stemmed_in_wordlist .
Отфильтруйте слова из основы l_stemmed , которые также присутствуют в wordlist_uniq_words .Сохраните результат в l_stemmed_in_wordlist .
Отфильтруйте слова из lc_humor_uniq_words , которые имеют ту же длину, что и соответствующие им слова из стеблей, присутствующие в p_stemmed , а также содержит, по крайней мере, один другой символ из соответствующего слова с основанием.Сохраните результат в списке p_stemmed_diff .
Отфильтруйте слова из lc_humor_uniq_words , которые имеют ту же длину, что и соответствующее слово в стебле, присутствующее в l_stemmed , а также содержит, по крайней мере, один другой символ из соответствующего слова с основанием.Сохранить результат в списке l_stemmed_diff .
Вывести количество слов, присутствующих в p_stemmed_diff .
Выведите количество слов, присутствующих в l_stemmed_diff .
- Ниже приведено слово, которое я выполнил до шага 13.
import nltk
import nltk.corpus
from nltk.corpus import brown
humor_words = brown.words(categories = 'humor')
lc_humor_words = [w.lower() for w in humor_words]
lc_humor_uniq_words = set(lc_humor_words)
from nltk.corpus import words
wordlist_words = words.words()
wordlist_uniq_words = set(wordlist_words)
from nltk.stem import PorterStemmer
porter = PorterStemmer()
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()
p_stemmed = []
for word in lc_humor_uniq_words:
p_stemmed.append(porter.stem(word))
l_stemmed = []
for wordd in lc_humor_uniq_words:
l_stemmed.append(lancaster.stem(wordd))
p_stemmed_in_wordlist = [word1 for word1 in p_stemmed if word1 in wordlist_uniq_words]
l_stemmed_in_wordlist = [word2 for word2 in l_stemmed if word2 in wordlist_uniq_words]