Question

Я загружаю HTML с внешнего сервера. HTML-разметка имеет кодировку UTF-8 и содержит такие символы, как ľ, š, č, ť, ž и т. Д. Когда я загружаю HTML с помощью file_get_contents (), например:

$html = file_get_contents('http://example.com/foreign.html');

Он портит символы UTF-8 и загружает Å, ¾, ¤ и подобные глупости вместо правильных символов UTF-8.

Как я могу решить эту проблему?

UPDATE:

Я попытался сохранить HTML-файл и вывести его в кодировке UTF-8. И то, и другое не работает, поэтому это означает, что file_get_contents () уже возвращает неработающий HTML.

UPDATE2:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="sk" lang="sk">
<head>

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Style-Type" content="text/css" />
<meta http-equiv="Content-Language" content="sk" />
<title>Test</title>

</head>
<body>


<?php

$html = file_get_contents('http://example.com');
echo htmlentities($html);

?>

</body>
</html>

ugniesdebesys · Answer 1 · 03 марта 2013

У меня была похожая проблема с польским языком

Я пытался:

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'UTF-8', mb_detect_encoding($fileEndEnd, 'UTF-8', true));

Я пытался:

$fileEndEnd = utf8_encode ( $fileEndEnd );

Я пытался:

$fileEndEnd = iconv( "UTF-8", "UTF-8", $fileEndEnd );

А потом -

$fileEndEnd = mb_convert_encoding($fileEndEnd, 'HTML-ENTITIES', "UTF-8");

Этот последний работал отлично !!!!!!

Gordon · Answer 2 · 10 февраля 2010

Решение, предложенное в комментариях к PHP-записи для file_get_contents

function file_get_contents_utf8($fn) {
     $content = file_get_contents($fn);
      return mb_convert_encoding($content, 'UTF-8',
          mb_detect_encoding($content, 'UTF-8, ISO-8859-1', true));
}

Вы также можете попытать счастья с http://php.net/manual/en/function.mb-internal-encoding.php

Richard Knop · Answer 3 · 10 февраля 2010

Хорошо. Я обнаружил, что file_get_contents () не вызывает эту проблему. Есть другая причина, о которой я говорю в другом вопросе. Глупый я.

См. Этот вопрос: Почему DOM меняет кодировку?

Dr. Dama · Answer 4 · 10 ноября 2012

Я думаю, у вас просто есть двойное преобразование типа символа: D

Это может быть потому, что вы открыли html-документ в html-документе. Итак, в конце концов у вас есть нечто, похожее на это

<!DOCTYPE html> 
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title></title>
</head>
<body>
<!DOCTYPE html> 
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<title>Test</title>.......

Использование mb_detect_encoding может привести к другим проблемам.

Mustafa Ergüven · Answer 5 · 26 октября 2016

На турецком языке, mb_convert_encoding или любое другое преобразование кодировки не работало.

А также urlencode не работал из-за пробела, преобразованного в + char. Для процентного кодирования должно быть% 20.

Этот работал!

   $url = rawurlencode($url);
   $url = str_replace("%3A", ":", $url);
   $url = str_replace("%2F", "/", $url);

   $data = file_get_contents($url);

Mohamm6d · Answer 6 · 19 ноября 2014

Попробуйте тоже

 $url = 'http://www.domain.com/';
    $html = file_get_contents($url);

    //Change encoding to UTF-8 from ISO-8859-1
    $html = iconv('UTF-8', 'ISO-8859-1//TRANSLIT', $html);

matasoy · Answer 7 · 15 ноября 2017

Я работаю с 35000 строк данных.

$f=fopen("veri1.txt","r");
$i=0;
while(!feof($f)){
    $i++;
    $line=mb_convert_encoding(fgets($f), 'HTML-ENTITIES', "UTF-8");
    echo $line;
}

Этот код конвертирует мои странные символы в обычные.

file_get_contents () разбивает символы UTF-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

file_get_contents () разбивает символы UTF-8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы