Я новичок в питоне и НЛП. Я пытаюсь использовать Brown Corpus в пакете nltk для создания кадра данных предложений и связанных жанров.
# Make list of individual categories
categories = [brown.categories()]
# Create blank lists to populate with sentence level data
sent_list = []
genre_list = []
# Iterate through each text, create sentence level documents
for i in range(len(categories)):
sents = brown.sents() #get sentences from document
joined_sents = [(' '.join(sent), categories) for sent in sents]
# write out to individual lists for easier text processing
for i in range(len(joined_sents)):
sent_list.append(joined_sents[i][0])
genre_list.append(joined_sents[i][1])
# Create data frame
df = pd.DataFrame()
df['sent'] = sent_sents
df['genre'] = genre_list
df.head()
В итоге я получаю данные из всех предложений, но не по жанрам. Я попытался поиграть с этой функцией, но не могу найти нужные жанры, чтобы «присоединиться» к другим предложениям. Любая помощь будет принята с благодарностью!