Как читать ISBN из электронных книг в файлах CHM или PDF - PullRequest
3 голосов
/ 02 января 2009

Я создаю базу данных для хранения своей коллекции электронных книг.
Большинство из них имеют ISBN в тексте самой книги.
Как я могу получить доступ к этому содержимому?
Есть ли исходный код или библиотеки DLL для этого?

Ответы [ 2 ]

4 голосов
/ 02 января 2009

Я сделал это для приложения библиотеки электронных книг. Прежде всего вам нужно извлечь текст из файла CHM или PDF. Для этого есть множество утилит \ библиотек. Вот статья о CodeProject о том, как извлечь содержимое из файлов CHM. Для файлов PDF я использовал утилиту pdftotext . Когда вы получаете простой текст из электронной книги, проанализируйте его, используя регулярное выражение , чтобы найти код ISBN10 / 13.

2 голосов
/ 02 января 2009

Извлечение текста из файлов CHM и PDF является первым шагом. Далее вы можете найти номер ISBN с регулярным выражением .

...