A.nnotate.com выполняет на стороне сервера преобразование PDF-страниц в изображения PNG с заданным уровнем масштабирования с использованием xpdf - это то, что отображается в браузере.
Подсветка текста выполняется путем извлечениятекстовые позиции из PDF, затем добавление прозрачного наложения поверх изображений страницы с абсолютно позиционированным HTML DIVS поверх слов.Затем аннотации используют графический интерфейс ajax для прикрепления заметок к выделенному тексту.
Другие форматы (MS Word, PPT и т. Д.) Сначала преобразуются в PDF с использованием openoffice, затем в изображения и текстовые наложения, как для PDF.
Я думаю, что другие сайты HTML-документов делают нечто похожее для рендеринга PDF-файлов в формате HTML (т. Е. Изображения страниц + наложение слов в виде прозрачных элементов div) - альтернативный прием заключается в преобразовании встроенных шрифтов PDF в шрифты HTML5 CSS и использовании абсолютно позиционированных элементов div длятекст (и извлекать и размещать изображения тоже).