Question

Я хотел бы попытаться охарактеризовать входящие документы в моем приложении как «хорошо» или «плохо» написанные. Я понимаю, что это нелегкая задача, но даже грубая идея будет полезна. Я чувствую, что способ сделать это был бы через наивный байесовский классификатор с двумя классами, но я открыт для предложений. Итак, два вопроса:

является ли этот метод оптимальным (с учетом простоты) способом сделать это Предполагая достаточно большой тренировочный дБ?
есть ли в ruby библиотеки (или любой интегрируемый JRuby или что угодно) что я могу подключить к моей rails app, чтобы это случилось без особых хлопот?

Спасибо!

seriousken · Answer 1 · 14 февраля 2011

Вы можете попробовать использовать словарный векторный анализ. Покрыты некоторые здесь:

http://en.wikipedia.org/wiki/Semantic_similarity

В основном вы создаете совокупность текстов, которые вы считаете «хорошо написанными» или «плохо написанными», и подсчитываете частоту определенных слов. Создайте нормализованный вектор для каждого, а затем вычислите расстояние между ними до векторов каждого входящего документа. Я не статистика, но мне сказали, что она похожа на байесовскую фильтрацию, но, похоже, лучше справляется с ошибками и выбросами.

Это не идеально, в любом случае. В зависимости от того, насколько точным он вам нужен, вам, вероятно, все равно понадобятся люди, чтобы принять окончательное решение. Но нам повезло, используя его в качестве предварительного фильтра для уменьшения количества рецензентов.

Stephen Petschulat · Answer 2 · 14 февраля 2011

Другой простой алгоритм для проверки - метрика читаемости Флеша-Кинкейда .Он довольно широко используется и должен быть прост в реализации.Я предполагаю, что одна из Ruby NLP библиотек имеет методы слогов.

Steven · Answer 3 · 14 февраля 2011

Вам может показаться интересным это Burstein, Chodorow и Leacock в системе оценки эссе Criterion для довольно интересного очень высокоуровневого обзора того, как одна конкретная система выполняла оценку эссе, а также коррекцию стиля.

НЛП и Руби характеризуют качество письма

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

НЛП и Руби характеризуют качество письма

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов