Как конвертировать PDF в UTF-8 - PullRequest
0 голосов
/ 24 марта 2010

Я пытаюсь загрузить файл PDF с помощью API веб-сервиса. Но этот API не работает для PDF-файла. это прекрасно работает для текстового файла. Когда я пытаюсь загрузить файл PDF, он выдает ошибку как Client-SOAP-ERROR: Кодировка: строка "% PDF-1.4% \ xc7 ..." не является допустимой строкой utf-8

Итак, можем ли мы преобразовать этот PDF-файл в строку utf8. Я использую PHP в качестве языка сценариев.

Ответы [ 2 ]

2 голосов
/ 24 марта 2010

PDF - это двоичный файл. Похоже, вы воспринимаете это как обычный текст.

Вы уверены, что загружаете его так, как должны? Похоже, вы помещаете необработанный PDF-файл в свой запрос SOAP - кажется, что в этом случае вы должны его кодировать в Base64. В противном случае вы столкнетесь со всевозможными проблемами с появлением в файле специальных символов XML, которые испортят файл полностью.

Другими словами, дважды проверьте API и убедитесь, что вы не должны что-то делать с файлом (подсказка: если эта штука принимает такие файлы, вы можете быть почти уверены, что вам нужно что-то сделать ).

0 голосов
/ 24 марта 2010

Похоже, API поддерживает только простой текст. Вам необходимо изменить API, чтобы он поддерживал другие форматы файлов.

… при условии, что вы не хотите конвертировать PDF в обычный текст, что можно сделать с помощью чего-то вроде pdftotext

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...