Как сделать анализ документов с помощью Text Mining? - PullRequest
0 голосов
/ 04 октября 2011

Я хотел бы проанализировать данный документ, чтобы выяснить, содержит ли этот документ информацию о моих заинтересованных предметных знаниях или что-то, не связанное со знанием предметной области.

Например, у меня есть документ, который содержит данные об ОС Android, и у меня есть онтология домена, в которой указаны все знания об android. Теперь я должен выяснить, какой процент действительного контента представляет мой документОтносительно доменной онтологии.

Один из способов приблизиться к решению - использовать ANNIE (GATE) для извлечения именованных объектов (NE) из документа и сравнить их с экземплярами доменной онтологии и процентным содержанием действительного контента.можно найти.

  1. Можете ли вы предложить какой-либо другой лучший метод, который я могу использовать?
  2. Существуют ли другие доступные API с открытым исходным кодом?Я пытался, Lingpipe , но я не могу использовать это в коммерческом продукте.
  3. Существуют ли какие-либо приложения с открытым исходным кодом такого типа?Я много искал, но я не мог найти приложение.

1 Ответ

1 голос
/ 04 октября 2011

Вы можете рассматривать это как документ классификации проблема:

Или проблема поиска документов :

  • Фактически вы сравниваете сходство по синусу между документом и классами онтологии. Вы можете использовать Lucene в качестве основы для механизма хранения документов онтологий.

В обоих случаях вы, вероятно, захотите уменьшить количество измерений (терминов) в своем документе, извлекая верхние N (например, 10) униграммы (исключая стопы) и статистически значимые биграммы, и используйте их в качестве набора слов . (Наивный Байес) или поисковый запрос (поиск документов).

...