Создание df предложений и категорий с использованием Brown corpus - PullRequest
0 голосов
/ 25 июня 2019

Я новичок в питоне и НЛП. Я пытаюсь использовать Brown Corpus в пакете nltk для создания кадра данных предложений и связанных жанров.

# Make list of individual categories 
categories = [brown.categories()]

# Create blank lists to populate with sentence level data
sent_list = []
genre_list = []

# Iterate through each text, create sentence level documents
for i in range(len(categories)):
sents = brown.sents() #get sentences from document
joined_sents = [(' '.join(sent), categories) for sent in sents]

# write out to individual lists for easier text processing
for i in range(len(joined_sents)): 
    sent_list.append(joined_sents[i][0]) 
    genre_list.append(joined_sents[i][1]) 

# Create data frame
df = pd.DataFrame()
df['sent'] = sent_sents
df['genre'] = genre_list
df.head()

В итоге я получаю данные из всех предложений, но не по жанрам. Я попытался поиграть с этой функцией, но не могу найти нужные жанры, чтобы «присоединиться» к другим предложениям. Любая помощь будет принята с благодарностью!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...