Regex для получения двоичного PDF-содержимого MTOM - PullRequest
0 голосов
/ 27 мая 2020

Я пытаюсь получить двоичное содержимое MTOM (которое представляет собой PDF-файл), используя расширенный класс SoapClient. Это эталонный класс: https://github.com/debuss/MTOMSoapClient/blob/master/MTOMSoapClient.php

Итак, если вы посмотрите на класс, вы увидите, что я получаю ответ, а затем использую регулярное выражение, чтобы получить определенные c его части. Это весь ответ, который я получаю.

весь ответ

HTTP/1.1 200 OK
Date: ...
Server: .....
Set-Cookie: ....; Path=/; HttpOnly
Set-Cookie: ...; Path=/; HttpOnly
Content-Type: multipart/related; type="application/xop+xml"; boundary="uuid:0f7fa750-c317-4039-897a-a90685b00d29"; start="<...>"; start-info="text/xml"
Keep-Alive: timeout=5, max=99
Connection: Keep-Alive
Transfer-Encoding: chunked

--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/xop+xml; charset=UTF-8; type="text/xml";
Content-Transfer-Encoding: binary
Content-ID: <root.message@cxf.apache.org>

<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/"><soap:Body><ns2:downloadAttachResponse xmlns:ns2="http://..../"><return><errStr></errStr><result>0</result><contentFile><xop:Include xmlns:xop="http://www.w3.org/2004/08/xop/include" href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org"/></contentFile></return></ns2:downloadAttachResponse></soap:Body></soap:Envelope>
--uuid:0f7fa750-c317-4039-897a-a90685b00d29
Content-Type: application/octet-stream
Content-Transfer-Encoding: binary
Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>

%PDF-1.4
...

   LOTS OF BINARY CODE HERE FOR THE PDF

--uuid:0f7fa750-c317-4039-897a-a90685b00d29--"


xml ответ

<soap:Envelope xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
   <soap:Body>
      <ns2:downloadAttachResponse xmlns:ns2="http://.../">
         <return>
            <errStr/>
            <result>0</result>
            <contentFile>
               <xop:Include href="cid:c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org" xmlns:xop="http://www.w3.org/2004/08/xop/include"/>
            </contentFile>
         </return>
      </ns2:downloadAttachResponse>
   </soap:Body>
</soap:Envelope>


Используя код класса, я получаю ошибку в двоичном массиве, который в основном пуст, потому что регулярное выражение не получает содержимое PDF. Это специфика c часть:

регулярное выражение


// Get CID
$cid = null;
preg_match('/cid:([0-9a-zA-Z-]+)@/', $xop_element, $cid);
$cid = $cid[1];

// Get Binary
$binary = null;
preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S].+?>([\s\S]*?)--uuid/', $response, $binary);
$binary = trim($binary[1]);   // error here

Итак, как я могу получить двоичное содержимое PDF с помощью регулярного выражения?

Спасибо!

1 Ответ

0 голосов
/ 27 мая 2020

В данных примера часть Content-ID: заканчивается на >

Content-ID: <c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>

В используемом вами шаблоне эта часть $cid.'[\s\S].+?> ожидает хотя бы один символ [\s\S] за которым следует 1+ раз любой символ, не являющийся жадным .+?, что означает, что должно быть не менее 2 символов перед >

Но в данных примера между ними нет символов.

Вы можете обновить код, чтобы использовать

preg_match('/Content-ID:[\s\S].+?'.$cid.'[\s\S]*?>([\s\S]*?)--uuid/', $response, $binary);

Regex demo

Если данные всегда структурированы таким образом, вы можете немного оптимизировать шаблон:

Content-ID:\h+<c4d149e6-3f6a-4aa8-bd07-244c92bdc262-2@cxf.apache.org>\R\s*((?:(?!--uuid).*\R)*)--uuid

Демонстрация Regex

...