НЛП: разрешить местоимение coreference в блоках - PullRequest
0 голосов
/ 30 мая 2018

Я планирую выполнить мой конвейер НЛП на корпусе книг.Так как решение основных проблем - это интенсивный процесс, я не смогу обрабатывать всю книгу или даже целую главу за раз.Я планировал разделить текст на большие куски, чтобы решить проблему.

Вопрос, с которым мне нужна помощь, заключается в том, как мне разрешить местоимение из Group2, если существительное, на которое он ссылается, находится в Group1.Есть ли способ отсеять зависимости от Group1 в следующие группы?Если нет, то как это обычно обрабатывается?

Для чего стоит я использую CoreNLP, но я открыт для других.

"Группа 1": Джордж былродился в Нью-Йорке.Geroge 10.

"Группа 2": Он любит город Нью-Йорк.

Спасибо

1 Ответ

0 голосов
/ 31 мая 2018

Это может быть интересно прочитать: https://stanfordnlp.github.io/CoreNLP/memory-time.html А здесь https://stanfordnlp.github.io/CoreNLP/coref.html они упоминают настройку maxMentionDistance.Я помню, как менял это в какой-то момент, когда я использовал coreNLP для разрешения coref.(Но непосредственно в Java; поскольку вы пометили свой вопрос с помощью NLTK; не уверен, что установка этого также возможна в реализации NLTK)

Я бы использовал здесь здравый смысл и попытался бы придерживаться концептуальных блоков какнасколько это возможно, т. е. если главы слишком большие, попробуйте (пару) абзацев.Возможно, вы могли бы «склеить» цепочки упоминаний обратно в постобработке, но я думаю, что это будет не сразу.

...