Как кто-то может создать алгоритм машинного обучения, который извлекает говорящего из книги / романа? - PullRequest
0 голосов
/ 02 июня 2018

В основном организует контент на основе спикера?

Отрывок из: Роберт Луи Стивенсон.«Странный случай доктора Джекила и мистера Хайда».

Пример ввода:

Но лицо Ланьона изменилось, и он поднял дрожащую руку.«Я больше не хочу видеть или слышать о докторе Джекиле», - сказал он громким, неуверенным голосом.«Я вполне закончил с этим человеком, и я прошу, чтобы вы избавили меня от любых намеков на того, кого я считаю мертвым.

Пример вывода:

[

“Narrator”: “But Lanyon's face changed, and he held up a trembling hand.”,

“Lanyon”: “I wish to see or hear no more of Dr. Jekyll”,

“Narrator”: “he said in a loud, unsteady voice.”,

“Lanyon”: “I am quite done with that person; and I beg that you will spare me any allusion to one whom I regard as dead.”

]

1 Ответ

0 голосов
/ 03 июня 2018

Я не слышал об алгоритме, который делает именно это.Но есть две хорошо известные проблемы, которые могут быть полезны: распознавание именованных сущностей (чтобы найти всех потенциальных носителей) и разрешение анафоры (чтобы решить, кто "он" или "она" вкаждый случай).

Вам также необходимо обучить классификатор для каждого цитируемого фрагмента текста, чтобы решить, является ли это прямой речью.И вам, вероятно, понадобится другой классификатор, чтобы решить для каждого идентифицированного фрагмента речи и для каждого идентифицированного оратора в контексте, насколько вероятно, что эта речь на самом деле принадлежит этому оратору.

...