Есть алгоритм классификатора распознавателя сущностей, которому не нужны целые тексты для тренировочных данных? - PullRequest
1 голос
/ 10 августа 2011

Я хочу распознать некоторые сущности по имеющимся у меня текстам, и я нашел много алгоритмов (NaiveBayes, скрытые марковские модели, условное случайное поле и т. Д.), Но, похоже, почти всем нужны огромные обучающие данные для классификации сущностей.

Я хочу знать, есть ли какой-нибудь алгоритм, который может распознавать, не имея текстов в обучающих данных, но, возможно, только слова, представляющие данные, которые я хочу распознать, или, может быть, некоторые строковые шаблоны, или другой способ.

Единственное, чего я хочу избежать, так это необходимости иметь огромный текст в качестве обучающих данных.

1 Ответ

2 голосов
/ 10 августа 2011

Если у вас есть короткий список типов именованных сущностей, которые вы хотели бы найти (обычно называемые «газетным справочником»), и у вас нет желания вручную аннотировать обучающие данные, вам следует заняться загрузкой распознавания именованных сущностей.Вы можете использовать начальную загрузку либо для расширения журнала, либо для разработки именованного распознавателя сущностей.Некоторые примеры подходов, которые я нашел в быстром поиске, представляют собой следующие документы:

Также было проведено немало исследований по активному обучению дляраспознавание именованных объектов, которое может значительно сократить объем обучающих данных, которые необходимо аннотировать, если вы решите сделать ручную аннотацию.

...