Сегментация страниц на основе видения - PullRequest
1 голос
/ 17 февраля 2012

Я хочу реализовать программу, которая может выполнять «Сегментацию страниц на основе Vision». Мне нужно руководство и подсказка. (Мне нужна практическая информация, а не только академическая информация)

Мои предпочтительные языки - JS (jQuery) и PHP.

Я прочитал следующую статью (VIPS: алгоритм сегментации страниц на основе Vision), и я думаю, что он может стать хорошей основой для этой цели:

FTP: //ftp.research.microsoft.com/pub/tr/tr-2003-79.pdf

Есть ли имплементация с открытым исходным кодом для "Сегментации страниц на основе Vision"?

1 Ответ

1 голос
/ 17 февраля 2012

Нет. Microsoft выдал патент на зрительную сегментацию документов (VIPS) .Попробуйте еще раз в 2023 году. Мне очень жаль.

РЕДАКТИРОВАТЬ: я не патентный юрист, но патент США 7 428 700 претензии довольно просты:

  1. Способ, реализованный по меньшей мере частично вычислительным устройством для идентификации одной или нескольких частей документа, описываемого древовидной структурой, имеющей множество узлов, причем способ содержит: идентификацию множества визуальных блоков в документе на основе,по крайней мере, модель документа документа;обнаружение, в отличие от множества визуальных блоков, одного или нескольких разделителей документа на основе, по меньшей мере, одной или нескольких характеристик, по меньшей мере, одного из множества визуальных блоков;присваивают каждому из одного или нескольких разделителей вес, основанный на характеристиках визуальных блоков по обе стороны от разделителя;и создание, по меньшей мере частично, на основе множества визуальных блоков и одного или нескольких разделителей, структуры контента для документа, при этом структура контента идентифицирует разные визуальные блоки как разные части семантического контента документа.

Теперь, документ, описываемый древовидной структурой, имеющей множество узлов , является нашей старой моделью DOM для веб-страницы.

Также обратите внимание, чточетыре изобретателя - также те же четыре соавтора цитируемой статьи.Будь я проклят, если это чистое совпадение.

...