Извлечение семантических данных из веб-страниц - PullRequest
0 голосов
/ 15 февраля 2011

Я заинтересован в извлечении семантических данных (простых шаблонов) из веб-страниц и других источников, которые в настоящее время не семантически осведомлены.Я уже писал сканеры и ручной анализатор на множестве разных языков, но всегда, кажется, много шаблонного кода и кода для конкретной страницы, и мне было интересно, знаете ли вы, ребята, какие-нибудь платформы или платформы, которые упрощают процесстолько, пожалуйста).

Я напишу один, если не смогу его найти, поэтому ссылки на аналогичные системы или предложения по фреймворку также приветствуются.

1 Ответ

1 голос
/ 27 февраля 2011

Поле известно как «автоматическое извлечение оболочки» и является активной областью исследований, но я не видел хорошего набора инструментов с открытым исходным кодом.Компания под названием lixto производит коммерческий инструмент, который может вас заинтересовать.Я хотел бы видеть проект с открытым исходным кодом, который решает эту проблему.

...