Пожалуйста, предложите хороший классификатор машинного обучения для истинного набора данных. Кроме того, можно ли указать собственные правила / функции для истинного учета в таком классификаторе? Спасибо за все ваши предложения.
Спасибо
Я реализовал версию TrueCaser в Python. Его можно обучить любому языку, когда вы предоставляете достаточно данных (то есть правильно составленных предложений).
Для английского языка он достигает точности 98,38% на выборочных предложениях из Википедии. Предоставляется предварительно обученная модель для английского языка.
Вы можете найти его здесь: https://github.com/nreimers/truecaser
Пожалуйста, ознакомьтесь с этим техническим документом.
http://www.cs.cmu.edu/~llita/papers/lita.truecasing-acl2003.pdf
Они сообщают о 98% точности.