Как я могу рассчитать фразу в прогнозе паузы - PullRequest
0 голосов
/ 30 января 2019

У меня есть задание для вычисления одних и тех же фраз в двух текстах для расчета точности системы прогнозирования паузы.

Например:
- исходное предложение: I / 1 завтракаю / 1 до /1 посещение / 1 школа.
- предложение из системы прогнозирования паузы: я / 1 имею / 1 завтрак / 1 перед / 1 посещением / 1 в / 1 школу.

Вывод, который мне нужноget:
- релевантная_фокусная_фраза: 3
- релевантная_потоковая_фраза: 2
- нерелевантная: 4

Объяснение того, как получить выходной номер:
- для релевантной_пика_фокусной фразы: проверить и сосчитатьодни и те же фразы между 2 предложениями (I, before, school = 3)
- для релевантного_предоставления_фразы: проверьте и сосчитайте разные фразы между 2 предложениями в исходном предложении (завтракайте, переходя к = 2)
- для not_relevant:проверить и сосчитать разные фразы между двумя предложениями в предложении из системы прогнозирования паузы (есть, завтракает, собирается, = 4)

Какмы можем написать код на python, чтобы вычислить фразы, чтобы получить этот вывод?Я пытался, но не могу найти точный расчет.

1 Ответ

0 голосов
/ 30 января 2019

Вы уже пробовали этот подход:

from multiset import Multiset

original = 'I/1 have breakfast/1 before/1 going to/1 school.'
prediction = 'I/1 have/1 breakfast/1 before/1 going/1 to/1 school.'

original_counts = Multiset(original.split('/1'))
prediction_counts = Multiset(prediction.split('/1'))

print('relevant_picked_up_phrase: ', (original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', (original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', (prediction_counts - original_counts))
print('relevant_picked_up_phrase: ', len(original_counts & prediction_counts))
print('relevant_picked_up_phrase: ', len(original_counts - prediction_counts))
print('relevant_picked_up_phrase: ', len(prediction_counts - original_counts))

Возможно, вам потребуется установить multiset с $ pip install multiset

...