Библиотеки для разбора PDF, PostScript и / или DjVu - PullRequest
1 голос
/ 22 июля 2009

То, что я хочу сделать, довольно просто: учитывая файл PDF / PS / DjVu, содержащий статью / книгу, найдите авторов и название статьи (любые другие метаданные были бы хорошими, но менее необходимыми). Это признание не обязательно должно быть идеальным, но я бы хотел сделать его как можно лучше. Я ищу библиотеки .NET и / или Java с открытым исходным кодом (предпочтительно .NET), которые позволяют получить доступ к метаданным и содержимому этих файлов.

Для PDF я обнаружил PDFBox (.NET / Java) и PDF Library (.NET), но могут быть и лучшие альтернативы, о которых я не знаю; для Postscript и DjVu я ничего не нашел.

Ответы [ 4 ]

1 голос
/ 03 сентября 2009

Другая библиотека PDF - PDFSharp . У него довольно неплохие возможности чтения / анализа.

1 голос
/ 11 декабря 2009

Для DjVu вы можете использовать коммерческий SDK из CamiNova или библиотеку с открытым исходным кодом, DjVu Libre.

1 голос
/ 21 августа 2009

Для большинства операций с PDF мы используем iTextSharp . Это порт оригинальной реализации Java.

0 голосов
/ 24 января 2014

Для Djvu вы можете использовать библиотеку C #, расположенную по адресу: https://github.com/Telavian/DjvuNet

...