Question

Я хочу извлечь определенные элементы из большого количества неструктурированных документов. Эти документы могут содержать от 1 до 5 страниц текста, отформатированного пользователем различными способами, но в большинстве случаев они содержат как минимум:

Имя * * 1004
Адрес (физический)
Адрес электронной почты
Номер телефона
URL веб-сайта

Я ищу семантический анализатор, который может пытаться извлечь эти элементы из документов, чтобы я мог загрузить эту информацию в реляционную базу данных и работать с этими записями в качестве контактов.

Другие службы, которые я искал, хотя и полезны для других целей, не удовлетворяют этой конкретной потребности.

Есть мысли, предложения или предложения?

user402730 · Answer 1 · 27 июля 2010

Нашли ли вы ответ на свой вопрос? Я нашел несколько исследовательских статей:

www.cis.upenn.edu / ~ Перейра / документы / crf.pdf

citeseerx.ist.psu.edu / viewdoc / скачать? Дои = 10.1.1.84.9192 & Rep = REP1 и тип = PDF

www2.selu.edu / Академики / Факультет / aculotta / Пабы / culotta04extracting.pdf

Но нет конкретных примеров кода для реализации любой из этих идей.

Взгляните на это тоже: stackoverflow.com/questions/953150/general-address-parser-for-freeform-text

(извините, я исключил http, эта система не позволяет мне публиковать более одной ссылки / ссылки)

Извлечение демографической и контактной информации из неструктурированных текстовых файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение демографической и контактной информации из неструктурированных текстовых файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы