Извлечение демографической и контактной информации из неструктурированных текстовых файлов - PullRequest
0 голосов
/ 01 июня 2010

Я хочу извлечь определенные элементы из большого количества неструктурированных документов. Эти документы могут содержать от 1 до 5 страниц текста, отформатированного пользователем различными способами, но в большинстве случаев они содержат как минимум:

  • Имя * * 1004
  • Адрес (физический)
  • Адрес электронной почты
  • Номер телефона
  • URL веб-сайта

Я ищу семантический анализатор, который может пытаться извлечь эти элементы из документов, чтобы я мог загрузить эту информацию в реляционную базу данных и работать с этими записями в качестве контактов.

Другие службы, которые я искал, хотя и полезны для других целей, не удовлетворяют этой конкретной потребности.

Есть мысли, предложения или предложения?

1 Ответ

0 голосов
/ 27 июля 2010

Нашли ли вы ответ на свой вопрос? Я нашел несколько исследовательских статей:

www.cis.upenn.edu / ~ Перейра / документы / crf.pdf

citeseerx.ist.psu.edu / viewdoc / скачать? Дои = 10.1.1.84.9192 & Rep = REP1 и тип = PDF

www2.selu.edu / Академики / Факультет / aculotta / Пабы / culotta04extracting.pdf

Но нет конкретных примеров кода для реализации любой из этих идей.

Взгляните на это тоже: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(извините, я исключил http, эта система не позволяет мне публиковать более одной ссылки / ссылки)

...