читать и искать в файле PDF - PullRequest
0 голосов
/ 28 июня 2011

Я пытаюсь получить текст из PDF-файла с этим кодом, но он возвращает, как показано ниже закодированный текст: -

$fp = fopen($filename, "r");
echo $content = fread($fp, filesize($filename));
fclose($fp);

%PDF-1.3 3 0 obj <> endobj 4 0 obj <> stream xœí\Ks¹¾ûWàâ*¹<„ñ~ø*¯½›ÊVíf«*‡(ZIÌRyHZÑ¿O÷ŠIKŪØ&9 h|Sn“TÑâ©mÐÚ å 6¨Mxø´Ê“üú•wÔ:,WP¥ˆqžzN~ƒÇ)¹zõ¯CF{Wê?¿ß$èQ‡šQ†J_`ù-ÏF‹Ë99NOsòeqw7y ðíÕx’’‹3ò™ãœ\¼YA½ÖG%°Ãå¶QO ³R𯌩8U %æåG]MÀ¥J'{±¢C¾®ÃõÂ÷^S8oQgœxΧÖÊø5›§ï×ÕÙZ‚ðÔ6K ç7@‘ñõ"OgdtÎHvE$ü2Ì/oŠ.£]t~ˆ‚9vêPeb훆LLˆê³ž{ÖvÆ{OYEò”|J'ãïiþcø2ËGØ+sè«;ø5§×äÛb˜Ïa¨]œñÙœ|&ØUo6Ø”¶j¥TóF½ûsIzJÞürl¯w$Kgr­tÑAÄ9&› ÚÒƒ`T¼bÐŒÜ9ü<œÃ8úÀ¿ÇáÈ÷t6K'3¤Oâ¹HŒàdt?Ío†óRlvy“Ž“tDæùš’QÉIø}<%KÖ‘¯‹9ɦ`ïW)°Ó Ì(¢hº›&XÂtÝ°¢M—Ùôjœß–mº~O¡aé4hÚþV ¨`ºOÏáŽ=­Àªœˆ·Ùôúâþf|yó>>wð„7ÊzCßçXì¨Lð•´.ð)E'fœMgµ&jN•.\8A ÅѵÚGÉZPaÃ:úâØþø˜¡Þ”uˆ,‡Ì·ãépæë¹]Ìà ^çiz›Nç4f&`–jÓ¨å™ÓèùÚÎ)*ÊIûimãWÜ#©v‘ŒGs*ÃJNÎxg &b5ã¹+)Ÿ§ù,Oo‡ãé&Ip­Ši,‚ó²Øf='Ǩ¡ƒ1ª•ˆ@%`&Àž J>9*ˆ¹5ì9rñÈ:(Š#yŸ¹yê¨Y®¨S…>ŒFcœäÀâWQÆxmøsI­÷ž9ü½¡Î‡ÕœDš-tM"[û†²rkïÆ“IßÌÈUžÝbLõ}œ-fuHõî!æQS`¹üÖû2 [Ш.—(~ÀXø6›”ÅÀ£K¼­óŒÆ5Ä ÆÿÓH¶ã`ƒÙÂUó¼%+Ë€ÃÛl1c7áæš%¼èOÿ<¯ÃË|xwV}´ÈQ&ˆ(ózx––ïâ²çëzäj’¦sj:U37‹«V0*y£Ù/cõ°±*9åÔú‘’ŸÊþY_FŒš³ÝJÁÏ}Î~Î…ßȵož)š—Bÿ…ÆN>œ[ê`ÖfŽê57sËËågÙмڑÔø°$o&D¬XL³æèö<®Äµ‚9¶ÏÌ=n(6*ÿt?J%‚Ip¥B‹~q6ýø^·_ÓÍ:‹òµ„¬MKGŠÍ‰ñ‚ú5/=’2žj–ô–

Понятия не имею, что я буду делать, чтобы получить текст и сопоставить его с пользовательским вводом?

Большое спасибо ...

Ответы [ 2 ]

0 голосов
/ 28 июня 2011

PDF - это структурированный и сжатый формат файла, содержащий ряд ресурсов, таких как простой текст и двоичные данные (изображения, шрифты и т. Д.).Сжатие необязательно.Основная проблема при попытке извлечь текстовые строки из PDF-файла заключается в том, что вы не знаете, поддерживалась ли текстовая структура во время преобразования.Некоторые программы хорошо справляются с сохранением слов / предложений в виде строки, в то время как другие могут разбивать текст таким образом, что исходный текст из исходного PDF-файла становится нечитаемым.Исходный документ и приложение для рендеринга PDF имеют значение в этом случае.

Прежде чем мы перейдем к деталям разбора текста из PDF, вам нужно просто быстро просмотреть Интернет .Если вам не нужен опыт, нет необходимости изобретать велосипед.

0 голосов
/ 28 июня 2011

http://nl3.php.net/manual/en/ref.pdf.php

посмотрите на это!* pdflib

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...