PHP - Как обрабатывать 'UTF-16', HTML-строку в кодировке us-ascii для правильного сохранения в DomDocument? - PullRequest
0 голосов
/ 29 ноября 2018

Я работаю над проектом PHP, который выбирает электронные письма и отображает их на экране.В электронном письме он получает следующий html:

    <html>
    <head>

    <META http-equiv="Content-Type" content="text/html; charset=utf-16">

    <style type="text/css">
          TD {
          font-family: Verdana,Tahoma,Arial, "Sans Serif";
          font-size: 10pt;
          }
          BODY {
          font-family: Verdana,Tahoma,Arial, "Sans Serif";
          font-size: 10pt;
          }
        </style>



    </head>

      <body bgcolor="#eeeeee"><img width="1" height="1" alt="" src="https://trademe.tmcdn.co.nz/images/1pixel.gif?gen=20181128"><table cellspacing="0" cellpadding="0" width="700" bgcolor="white" align="center" style="border-left: 1px #CCCCCC solid; border-right: 1px #CCCCCC solid; border-top: 1px #CCCCCC solid;">
      <tr>

        <td height="20" colspan="4">&nbsp;</td>

      </tr>

      <tr>

        <td width="20"></td>

        <td><a href="https://www.trademe.co.nz/Track.aspx?site=2018112820201&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;"><img border="0" alt="Trade Me Logo" width="246" height="48" src="https://trademe.tmcdn.co.nz/images/new-brand-2016/common/tm-logo-2016-246x48-v1.gif?gen=2018112820201"></a><img src="https://api.trademe.co.nz/tracking/collect?evt=open&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937&amp;tid=EB71C99D-BEB4-445F-B62B-C172AC5A4CF4"></td>

        <td align="center"></td>

        <td width="20"></td>

      </tr>

      <tr>

        <td width="20"></td>

        <td colspan="2">

          <hr size="0" color="#CCCCCC">

          <center><small>Security Note: Trade Me will never ask you for your password via email</small></center>

          <hr size="0" color="#CCCCCC">

        </td>

        <td width="20"></td>

      </tr>

      <tr>

        <td width="20"></td>

        <td colspan="2" style="padding-left: 10px; padding-top: 10px;"><small>

      This is an automated email regarding listing #: 1847238571</small><br><br>

    Hi Matthew,

    <br><br><div>

      A member has asked a question on your listing for "2.4KW 2400W 3KVA 24VDC Pure Sine Wave Power Inverter Solar Caravan Off Grid LCD".

    </div><br><table width="100%" cellpadding="3" cellspacing="0" border="0">

            <tr>

              <td align="center" width="20"><img width="20" height="20" alt="" src="https://trademe.tmcdn.co.nz/images/icon_question.gif">&nbsp;</td>

              <td>what is the warranty like? &nbsp;&nbsp;<small><i>posted by:&nbsp;</i></small>&nbsp;<b><a href="https://www.trademe.co.nz/Members/Listings.aspx?member=4187691&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;">matihegarty</a></b>

    (<a href="https://www.trademe.co.nz/Members/Feedback.aspx?member=4187691&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;">5</a>&nbsp;<a href="https://www.trademe.co.nz/Members/Feedback.aspx?member=4187691&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937"><img align="absmiddle" border="0" src="https://www.trademe.co.nz/images/star.gif"></a>)

  &nbsp;&nbsp;&nbsp;<small>8:54 pm, Wed 28 Nov</small></td>

            </tr>

          </table><br><br><center><b><font size="3"><a href="https://www.trademe.co.nz/a.asp?id=1847238571&amp;qna=true#qna&amp;tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;">Answer this question</a></font></b></center><br><br><div>

      We recommend you answer all questions on your listings to help buyers make informed decisions. Questions on vehicle listings created in Trade Me Motors will be displayed automatically. For other listings, questions will only be displayed if answered.

    </div><br><br>

    Happy trading!

    <br><br>

    The Trade Me team

    <br><a href="https://www.trademe.co.nz/?tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;">www.trademe.co.nz</a><br><br><small>

      If you don't wish to receive these emails or prefer plain text email, please update your

      <a href="https://www.trademe.co.nz/MyTradeMe/EmailOptions.aspx?tm=email&amp;et=201&amp;mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style="text-decoration: underline;">email options</a></small></td>

        <td width="20"></td>

      </tr>

      <tr>

        <td colspan="3">

          <table cellspacing="0" cellpadding="0" border="0" width="100%" align="center" style="background-color:White;">

            <tr>

              <td align="center"><br><small><img width="7" height="8" src="https://trademe.tmcdn.co.nz/images/3/common/triangle.gif">&nbsp;<font color="#666666">advertisement</font></small><br><br></td>

            </tr>

          </table>

          <table cellspacing="0" cellpadding="0" border="0" width="100%" align="center" style="background-color:#9A9A9A;">

            <tr>

              <td><a href="https://www.trademe.co.nz/Link.aspx?i=101247"><img style="border-width:0;" src="https://trademe.tmcdn.co.nz/photoserver/adserver/TMI0003-700x70-mates-FA.png?e=" alt="" width="700" height="70"></a></td>

            </tr>

          </table>

        </td>

      </tr>

    </table>

  </body>

</html>

Моя программа делает это:

    $cleanMessage = new DOMDocument();
    @$cleanMessage->loadHTML($this->bodyHTML); //To clean the html code for unclosed td table tags and other 

    $this->message = $cleanMessage->saveHTML();

Но мой вывод:

�� <�! DOCTYPE html PUBLIC "- // W3C // DTD HTML 4.0 Transitional // EN" "<a href="http://www.w3.org/TR/REC-html40/loose.dtd" rel="nofollow noreferrer">http://www.w3.org/TR/REC-html40/loose.dtd"> <�html> <�head> <�meta http-эквивалент =" Content-Type "content =" text/ HTML;charset = utf-16 "> <�style type =" text / css "> TD {font-family: Verdana, Tahoma, Arial," Sans Serif "; размер шрифта: 10pt;} BODY {font-family: Verdana,Tahoma, Arial, "Sans Serif"; размер шрифта: 10pt;} <� / style> <� / head> <�body bgcolor = "# eeeeee"> <�img width = "1" height = "1" alt= "" src = "https://trademe.tmcdn.co.nz/images/1pixel.gif?gen=20181128"><�table cellspacing =" 0 "cellpadding =" 0 "width =" 700 "bgcolor =" white "align =" center "style =" border-left: 1px #CCCCCC solid; border-right:1px #CCCCCC solid; border-top: 1px #CCCCCC solid; "> <�tr> <�td height =" 20 "colspan =" 4 "> � <� / td> <� / tr> <�tr> <� / td> <�td> <�a href = "https://www.trademe.co.nz/Track.aspx?site=2018112820201&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> <�img border =" 0 "alt =" Trade MeЛоготип "width =" 246 "height =" 48 "src =" https://trademe.tmcdn.co.nz/images/new-brand-2016/common/tm-logo-2016-246x48-v1.gif?gen=2018112820201"><�/a><�img src = "https://api.trademe.co.nz/tracking/collect?evt=open&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937&tid=EB71C99D-BEB4-445F-B62B-C172AC5A4CF4"><�/td> <�td align =" center "> <� / td> <�td width =" 20 "> <� /td> <� / tr> <�tr> <�td width = "20"> <� / td> <�td colspan = "2"> <�hr size = "0" color = "# CCCCCC"> <�center> <�small> Примечание по безопасности: Trade Me никогда не спросит ваш пароль по электронной почте <� / small> <� / center> <�hr size = "0" color = "# CCCCCC "> <� / td> <�td width =" 20 "> <� / td> <� / tr> <�tr> <�td width =" 20 "> <� / td> <�td colspan ="2" style = "padding-left: 10px;padding-top: 10px; "> <�small> Это автоматическое электронное письмо относительно списка #: 1847238571 <� / small> <�br> <<br> Привет, Мэтью, <�br> <�br> <�div>Участник задал вопрос по вашему листингу для "ЖК-дисплей с солнечной батареей и караваном-инвертором с питанием от синусоидальной формы 2,4 кВт, 2400 Вт, 3 кВт, 24 В постоянного тока". <� / div> <�br> <�table width = "100%" cellpadding = "3"cellspacing =" 0 "border =" 0 "> <�tr> <�td align =" center "width =" 20 "> <�img width =" 20 "height =" 20 "alt =" "src ="https://trademe.tmcdn.co.nz/images/icon_question.gif">�<�/td> <�td> что такое гарантия?�� <�small> <�i> опубликовано: � <� / i> <� / small> � <�b> <�a href = "https://www.trademe.co.nz/Members/Listings.aspx?member=4187691&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> matihegarty<� / a> <� / b> (<�a href = "https://www.trademe.co.nz/Members/Feedback.aspx?member=4187691&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> 5 <� / a> � <�a href =" https://www.trademe.co.nz/Members/Feedback.aspx?member=4187691&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937"><�img align = "absmiddle "border =" 0 "src =" https://www.trademe.co.nz/images/star.gif"><�/a>) ��� <�small> 20:54, среда, 28 ноября <� / small> <� / td> <� / tr> <� / таблица> <�br> <�br> <�center> <�b> <�font size = "3"> <�a href = "https://www.trademe.co.nz/a.asp?id=1847238571&qna=true#qna&tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> Ответить на этот вопрос <� / a> <� / font> <� / b> <� / center> <�br> <�br> <�div> Мы рекомендуем вам ответить на все вопросы о ваших списках, чтобы помочь покупателям принимать обоснованные решения. Вопросы о списках транспортных средств, созданных вTrade Me Motors будет отображаться автоматически. Для других списков вопросы будут отображаться только в случае ответа. <� / div> <�br> <�br> Удачной торговли! <�br> <�br> Команда Trade Me <�br> <�a href = "https://www.trademe.co.nz/?tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> www.trademe.co.nz <� / a> <�br> <�br> <�small> Если вы нене хочу получать эти епочты или предпочитаете обычные текстовые сообщения, обновите <�a href = "https://www.trademe.co.nz/MyTradeMe/EmailOptions.aspx?tm=email&et=201&mt=75D6A1C7-4DEA-4B06-A3E9-6A12C1B41937" style =" text-ornament: underline; "> параметры электронной почты <� / a> <� / small> <� / td> <�tdwidth = "20"> <� / td> <� / tr> <�tr> <�td colspan = "3"> <�table cellspacing = "0" cellpadding = "0" border = "0" width = "100% "align =" center "style =" background-color: White; "> <�tr> <�td align =" center "> <�br> <�img width =" 7 "height ="8" src = "https://trademe.tmcdn.co.nz/images/3/common/triangle.gif">�<�font color =" # 666666 "> реклама <� / font> <� / small> <�br> <�br> <� / td> <� / tr> <� / table><�table cellspacing = "0" cellpadding = "0" border = "0" width = "100%" align = "center" style = "background-color: # 9A9A9A;"> <�tr> <�td> <�img style =" border-width: 0; "src =" https://trademe.tmcdn.co.nz/photoserver/adserver/TMI0003-700x70-mates-FA.png?e=" alt = "" width = "700" height = "70"> <� / a> <� / td>

<� / table> <� / td> <� / tr> <� / table> <� / body> <� / html>

Я пробовал:

1.

$this->bodyHTML = mb_convert_encoding($this->bodyHTML,'UTF-8','utf-16');
$this->bodyHTML = mb_convert_encoding($this->bodyHTML,'HTML-ENTITIES','UTF-8'); //both lines together
$this->bodyHTML = mb_convert_encoding($this->bodyHTML,'HTML-ENTITIES','UTF-16');

Но он по-прежнему отображает искаженные или китайские символы.

Как правильно отобразить этот HTML-код?

1 Ответ

0 голосов
/ 30 ноября 2018

в вашем html замените кодировку utf-16 на utf-8 или ISO-8859-1, если вы видите странные символы.

$this->bodyHTML = str_replace("charset=utf-16","charset=utf-8", $this->bodyHTML);
...