Я пытаюсь выполнить словарное понимание, которое применяет функцию только к определенному внутреннему подразделу.Функция удаляет неанглийские слова из строк.Я хотел бы, чтобы он применялся к 'title'
подразделу только для каждого ключа в словаре.
# imports
import nltk
# function to remove non-English words
words = set(nltk.corpus.brown.words())
def strip_non_en(string, words):
" ".join(w for w in nltk.wordpunct_tokenize(string)\
if w.lower() in words or not w.isalpha())
return string
# dict example:
meta_data = {
'12345.xml': {'author': ['Presley'],
'date': 1956,
'doi': None,
'title': 'Heartbreak Hotel'},
'67890.xml': {'author': ['Iglesias'],
'date': 1972,
'doi': None,
'title': 'For a little bit of your love Por Un Poco De Tu Amor'}
}
Я могу только заставить его применить функцию ко всем подпунктамключи, которые, как правило, удаляют содержимое вложенных клавиш 'author'
.
Любая помощь приветствуется.