НЛП и Руби характеризуют качество письма - PullRequest
2 голосов
/ 14 февраля 2011

Я хотел бы попытаться охарактеризовать входящие документы в моем приложении как «хорошо» или «плохо» написанные. Я понимаю, что это нелегкая задача, но даже грубая идея будет полезна. Я чувствую, что способ сделать это был бы через наивный байесовский классификатор с двумя классами, но я открыт для предложений. Итак, два вопроса:

  1. является ли этот метод оптимальным (с учетом простоты) способом сделать это Предполагая достаточно большой тренировочный дБ?

  2. есть ли в ruby ​​библиотеки (или любой интегрируемый JRuby или что угодно) что я могу подключить к моей rails app, чтобы это случилось без особых хлопот?

Спасибо!

Ответы [ 3 ]

2 голосов
/ 14 февраля 2011

Вы можете попробовать использовать словарный векторный анализ. Покрыты некоторые здесь:

http://en.wikipedia.org/wiki/Semantic_similarity

В основном вы создаете совокупность текстов, которые вы считаете «хорошо написанными» или «плохо написанными», и подсчитываете частоту определенных слов. Создайте нормализованный вектор для каждого, а затем вычислите расстояние между ними до векторов каждого входящего документа. Я не статистика, но мне сказали, что она похожа на байесовскую фильтрацию, но, похоже, лучше справляется с ошибками и выбросами.

Это не идеально, в любом случае. В зависимости от того, насколько точным он вам нужен, вам, вероятно, все равно понадобятся люди, чтобы принять окончательное решение. Но нам повезло, используя его в качестве предварительного фильтра для уменьшения количества рецензентов.

1 голос
/ 14 февраля 2011

Другой простой алгоритм для проверки - метрика читаемости Флеша-Кинкейда .Он довольно широко используется и должен быть прост в реализации.Я предполагаю, что одна из Ruby NLP библиотек имеет методы слогов.

0 голосов
/ 14 февраля 2011

Вам может показаться интересным это Burstein, Chodorow и Leacock в системе оценки эссе Criterion для довольно интересного очень высокоуровневого обзора того, как одна конкретная система выполняла оценку эссе, а также коррекцию стиля.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...