Разбор полуструктурированных данных - могу ли я использовать какие-либо классификаторы? - PullRequest
1 голос
/ 28 октября 2010

У меня есть набор документов, которые имеют полурегулярный формат. Строки обычно разделяются символами новой строки, а основные компоненты каждой строки разделяются пробелами. Некоторые примеры - это набор инструкций по сборке мебели, набор оглавления, набор рецептов и набор выписок из банковского счета.

Проблема состоит в том, что каждый образец в каждом наборе отличается от своих одноранговых членов способами, которые делают анализ RegEx неосуществимым: количество элемента может быть до или после имени элемента, одни и те же элементы могут иметь разные имена между образцами пояснительный текст или примечания могут существовать между строками и т. д.

Я использовал классификаторы (Neural Nets, Bayesian, GA и GP) для работы с целыми документами или наборами данных, но не для извлечения элементов из документов и их классификации в контексте. Можно ли это сделать? Есть ли более осуществимый подход?

Ответы [ 2 ]

2 голосов
/ 29 октября 2010

Если ваши данные имеют структуру, возможно, вы можете использовать грамматику для описания некоторых из этих структур. (Обычно вы используете грамматики для распознавания того, что они могут, часто слишком много, и внеграмматические проверки, чтобы исключить то, что грамматики не могут устранить).

Если вы используете грамматику, которая может выполнять параллельные потенциальные разборы, которые исключают разборы, когда они становятся неосуществимыми, Вы можете разобрать различные заказы прямо. (Парсер GLR может сделать это красиво).

Представьте, что у вас есть НОМЕРА, описывающие суммы, НОУНЫ, описывающие различные объекты, и ГЛАГОЛЫ для действий. Тогда грамматика, которая может принимать различные порядки элементов, может быть:

 G = SENTENCE '.' ;
 SENTENCE = VERB NOUN NUMBER ; 
 SENTENCE = NOUN VERB NUMBER;
 VERB = 'ORDER' | 'SAW' ;
 NUMBER = '1' | '2' | '10' ;
 NOUN = 'JOE' | 'TABLE' | 'SAW' ;

Этот образец чрезвычайно прост, но он будет обрабатывать:

 JOE ORDERED 10.
 JOE SAW 1.
 ORDER 2 SAW.

Он также принимает:

 SAW SAW 10.

Вы можете устранить это, добавив внешнее ограничение, что субъектами должны быть люди.

0 голосов
/ 07 ноября 2010

Есть много способов сделать это. Эта область активных исследований называется: извлечение информации . В частности извлечение информации из полуструктурированных источников.

...