Обработка естественного языка - классификатор Truecaser - PullRequest
4 голосов
/ 23 ноября 2010

Пожалуйста, предложите хороший классификатор машинного обучения для истинного набора данных. Кроме того, можно ли указать собственные правила / функции для истинного учета в таком классификаторе? Спасибо за все ваши предложения.

Спасибо

Ответы [ 2 ]

3 голосов
/ 09 июня 2016

Я реализовал версию TrueCaser в Python. Его можно обучить любому языку, когда вы предоставляете достаточно данных (то есть правильно составленных предложений).

Для английского языка он достигает точности 98,38% на выборочных предложениях из Википедии. Предоставляется предварительно обученная модель для английского языка.

Вы можете найти его здесь: https://github.com/nreimers/truecaser

0 голосов
/ 12 июля 2011

Пожалуйста, ознакомьтесь с этим техническим документом.

http://www.cs.cmu.edu/~llita/papers/lita.truecasing-acl2003.pdf

Они сообщают о 98% точности.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...