Я использую некоторые основанные на правилах и статистические теги POS, чтобы пометить корпус (около 5000 предложений ) с помощью частей речи (POS). Ниже приведен фрагмент моего тестового корпуса, в котором каждое слово отделено соответствующим POS-тегом с помощью '/'.
.
No/RB ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./.
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/NNP as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/NNP plunged/VBD 190.58/CD points/NNS --/: most/JJS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NN ./.
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VBP 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/NN panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./.
После пометки корпуса это выглядит так:
No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./.
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./.
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./.
Мне нужно рассчитать точность тегирования ( Tag wise- Recall & Precision ), поэтому необходимо найти ошибку (если есть) в тегировании для каждой пары слово-тег.
Подход, о котором я думаю, состоит в том, чтобы пройти через эти 2 текстовых файла и сохранить их в списке, а затем сравнивать два списка по элементам.
Этот подход мне кажется очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили более лучшее решение вышеуказанной проблемы.
со страницы википедии :
В задаче классификации
точность для класса это число
истинные позитивы (то есть количество
предметы, правильно помеченные как принадлежащие
к положительному классу) делится на
общее количество элементов, помеченных как
принадлежность к положительному классу (т.е.
сумма истинных положительных и ложных
позитивы, которые являются предметами неправильно
помечены как принадлежащие к классу).
Напомним в этом контексте определяется как
количество истинных позитивов разделено
по общему количеству элементов, которые
на самом деле относятся к положительному классу
(т.е. сумма истинных позитивов и
ложные негативы, которые являются предметами, которые
не были помечены как принадлежащие к
положительный класс но должен был быть).