То, что я хочу сделать, довольно просто: учитывая файл PDF / PS / DjVu, содержащий статью / книгу, найдите авторов и название статьи (любые другие метаданные были бы хорошими, но менее необходимыми). Это признание не обязательно должно быть идеальным, но я бы хотел сделать его как можно лучше. Я ищу библиотеки .NET и / или Java с открытым исходным кодом (предпочтительно .NET), которые позволяют получить доступ к метаданным и содержимому этих файлов.
Для PDF я обнаружил PDFBox (.NET / Java) и PDF Library (.NET), но могут быть и лучшие альтернативы, о которых я не знаю; для Postscript и DjVu я ничего не нашел.