Я пишу процессор на естественном языке на C #, который извлекает мнение (положительное / отрицательное) предложения. Тем не менее, есть некоторая проблема в том, что я могу различить мнение о слове с ошибкой - если его нет в словаре, я не могу ни пометить его, ни оценить!
Я знаю, что должен быть способ справиться с этим. Google постоянно дает точные предложения, мне просто нужно взять верхнее предложение из аналогичного алгоритма и поразить его базой данных. Проблема в том, что я не уверен, с чего начать с имен алгоритмов и так далее. Мне нужна помощь, чтобы выяснить это.
Я проверил на сайте похожие вопросы и нашел некоторые концепции, которые казались полезными, но основной способ обработки расстояния между орфографической ошибкой и реальным словом в основном основывался на попадании в каждое слово в вашем наборе данных, что выглядит ужасно неэффективен. Некоторая помощь с идеями по ускорению работы алгоритма также будет высоко оценена; Предполагается, что этот механизм анализа сможет обрабатывать несколько тысяч элементов в день.
Заранее спасибо.