Какая технология используется за A.nnotate.com? - PullRequest
4 голосов
/ 24 июля 2011

Я хотел бы знать, как такие сервисы, как A.nnotate.com, Scribd, Google Docs, переводят pdf, .doc или любой другой документ в HTML и как работает система аннотаций?

1 Ответ

5 голосов
/ 25 июля 2011

A.nnotate.com выполняет на стороне сервера преобразование PDF-страниц в изображения PNG с заданным уровнем масштабирования с использованием xpdf - это то, что отображается в браузере.

Подсветка текста выполняется путем извлечениятекстовые позиции из PDF, затем добавление прозрачного наложения поверх изображений страницы с абсолютно позиционированным HTML DIVS поверх слов.Затем аннотации используют графический интерфейс ajax для прикрепления заметок к выделенному тексту.

Другие форматы (MS Word, PPT и т. Д.) Сначала преобразуются в PDF с использованием openoffice, затем в изображения и текстовые наложения, как для PDF.

Я думаю, что другие сайты HTML-документов делают нечто похожее для рендеринга PDF-файлов в формате HTML (т. Е. Изображения страниц + наложение слов в виде прозрачных элементов div) - альтернативный прием заключается в преобразовании встроенных шрифтов PDF в шрифты HTML5 CSS и использовании абсолютно позиционированных элементов div длятекст (и извлекать и размещать изображения тоже).

...