Question

Я хотел бы проанализировать данный документ, чтобы выяснить, содержит ли этот документ информацию о моих заинтересованных предметных знаниях или что-то, не связанное со знанием предметной области.

Например, у меня есть документ, который содержит данные об ОС Android, и у меня есть онтология домена, в которой указаны все знания об android. Теперь я должен выяснить, какой процент действительного контента представляет мой документОтносительно доменной онтологии.

Один из способов приблизиться к решению - использовать ANNIE (GATE) для извлечения именованных объектов (NE) из документа и сравнить их с экземплярами доменной онтологии и процентным содержанием действительного контента.можно найти.

Можете ли вы предложить какой-либо другой лучший метод, который я могу использовать?
Существуют ли другие доступные API с открытым исходным кодом?Я пытался, Lingpipe , но я не могу использовать это в коммерческом продукте.
Существуют ли какие-либо приложения с открытым исходным кодом такого типа?Я много искал, но я не мог найти приложение.

Joel · Answer 1 · 04 октября 2011

Вы можете рассматривать это как документ классификации проблема:

Одним из самых простых является Байесовский классификатор

Или проблема поиска документов :

Фактически вы сравниваете сходство по синусу между документом и классами онтологии. Вы можете использовать Lucene в качестве основы для механизма хранения документов онтологий.

В обоих случаях вы, вероятно, захотите уменьшить количество измерений (терминов) в своем документе, извлекая верхние N (например, 10) униграммы (исключая стопы) и статистически значимые биграммы, и используйте их в качестве набора слов . (Наивный Байес) или поисковый запрос (поиск документов).

Как сделать анализ документов с помощью Text Mining?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать анализ документов с помощью Text Mining?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы