Я работаю над проектом анализа настроений в книге.Я использую nltk.vader.sentimentintensityanalyzer для записи полярности настроений абзацев в серии о Гарри Поттере.
Чтобы создать абзацы и удалить разрывы строк, я сделал:
text_file = open('HP1 Sorcerer of Stone.txt', 'r')
text = str(text_file.readlines())
text.replace('\\n"', "").replace("\'", "").replace(" , ","")
Это разбивает книгу на абзацы.Проблема возникает, когда речь идет о диалоге.
Диалог имеет одинаковые разрывы абзаца между словами каждого символа
' "So?" snapped Mrs. Dursley. ',
' "Well, I just thought... maybe... it was something to do with... you
know... her crowd." ',
' Mrs. Dursley sipped her tea through pursed lips. Mr. Dursley wondered
whether he dared tell her he\\d heard the name "Potter." He decided he
didn\\t dare. Instead he said, as casually as he could, "Their son --
he\\d be about Dudley\\s age now, wouldn\\t he?" ',
' "I suppose so," said Mrs. Dursley stiffly. ',
' "What\\s his name again? Howard, isn\\t it?" ',
' "Harry. Nasty, common name, if you ask me." ',
Как я могу редактировать свои методы разбивки, чтобы диалог оставался вместе как один элемент?Диалог в целом будет затем использоваться как отдельный вход в анализатор интенсивности.