разбор размеров из текстовых данных - PullRequest
0 голосов
/ 21 июля 2011

Я хочу извлечь размеры из текстовых данных («ракета была пятьдесят пять дюймов в длину» или «он весил девять с половиной фунтов») и преобразовать их в данные в формате, используемом программой.

Какой хороший способ сделать это?Есть ли полезные библиотеки?

А насколько сложна эта задача?

1 Ответ

0 голосов
/ 22 июля 2011

Вы можете подойти к этому как к проблеме извлечения информации (IE).В этом случае базовый подход заключается в формулировании набора регулярных выражений, которые приблизительно описывают проблему и уточняют их до тех пор, пока они не станут достаточно хорошими, или вы не сможете продолжить.

Или вы можете ваш любимый синтаксический анализатор и посмотрите, какие деревья / структуры зависимостей он создает для предложений, за которыми вы следите, выясните общий шаблон, проверьте, насколько хорошо он работает, и, возможно, отфильтруйте результаты с помощью регулярного выражения или некоторого предиката длявозвращаемая структура.

...