отдельные субстанции внутри предложения без какой-либо координации - PullRequest
0 голосов
/ 29 мая 2019

Я хочу отделить все сущности внутри предложения. Если в предложении есть пунктуация или какая-либо координация, я могу разделить их с простором. Но если нет разделения, есть ли у вас идея с этим справиться? Например, у меня есть предложение (по-французски):

Je suis Linda je veux savoir votre nom.

Я хочу получить:

Je suis Linda
je veux savoir votre nom.

Ответы [ 2 ]

1 голос
/ 03 июня 2019

Для будущих пользователей, которым это может понадобиться, я обнаружил, что на github есть разделение, которое может разделять предложения без пунктуации, неправильной пунктуации или неправильной пунктуации.Это глубокий сегмент .Мне нужно только загрузить модель с предварительной подготовкой для французского языка и изменить путь в config.json в папке этой модели.

from deepsegment import DeepSegment
segmenter = DeepSegment('mydata\\deepsegment_eng_fra_ita_v1\\config.json')
print(segmenter.segment('Je suis Linda je veux savoir votre nom.'))

И мы получаем:

['Je suis Linda', 'je veux savoir votre nom.']
1 голос
/ 30 мая 2019

Я думаю, что вы, вероятно, можете сделать это, используя какую-то вероятностную модель, но она будет довольно технической.Идея состоит в том, что слова имеют определенную вероятность иметь определенную часть речи («видеть» обычно является глаголом, но иногда является существительным, как «Святой Престол» на самом деле относится к Папе).Каждая часть речи имеет условную вероятность быть рядом с другой частью речи (например, существительное следует за предлогом).Используя эту информацию, алгоритм может рассчитать вероятность предложений и предложений.Алгоритм должен поддерживать несколько жизнеспособных интерпретаций и возвращать интерпретацию с наибольшей вероятностью, которая будет состоять из одного или нескольких предложений.Я полагаю, что это то, что вы просите.

К сожалению, я не знаю, сможет ли SpaCy сделать это.Я подозреваю, что нет.

Я предлагаю вам взглянуть на примеры решения такого рода проблем в научной литературе.Вот два, чтобы начать:

...