Question

У меня есть скрипт, который объединяет несколько файлов в один, и он разбивается, когда один из файлов имеет кодировку UTF8. Я полагаю, что я должен использовать функцию utf8_decode() при чтении файлов, но я не знаю, как определить, какие из них нужно декодировать.

Мой код в основном:

$output = '';
foreach ($files as $filename) {
    $output .= file_get_contents($filename) . "\n";
}
file_put_contents('combined.txt', $output);

В настоящее время в начале файла UTF8 добавляются следующие символы: ï»¿

Ben Blank · Answer 1 · 03 февраля 2009

Попробуйте использовать функцию mb_detect_encoding . Эта функция проверит вашу строку и попытается «угадать» ее кодировку. Затем вы можете конвертировать его по желанию. Как brulak предложил , вам, вероятно, лучше преобразовать в UTF-8, а не из , чтобы сохранить передаваемые данные. *

powtac · Answer 2 · 27 февраля 2013

Чтобы убедиться, что выход UTF-8, независимо от того, какой это был ввод, я использую этот check :

if(!mb_check_encoding($output, 'UTF-8')
    OR !($output === mb_convert_encoding(mb_convert_encoding($output, 'UTF-32', 'UTF-8' ), 'UTF-8', 'UTF-32'))) {

    $output = mb_convert_encoding($content, 'UTF-8', 'pass'); 
}

// $output is now safely converted to UTF-8!

yanek1988m · Answer 3 · 10 марта 2015

mb_detect_encoding функция должна быть вашим последним выбором. Это может вернуть неправильную кодировку. Команда Linux file -i /path/myfile.txt работает отлично. В PHP вы можете использовать:

function _detectFileEncoding($filepath) {
    // VALIDATE $filepath !!!
    $output = array();
    exec('file -i ' . $filepath, $output);
    if (isset($output[0])){
        $ex = explode('charset=', $output[0]);
        return isset($ex[1]) ? $ex[1] : null;
    }
    return null;
}

PapaKai · Answer 4 · 22 апреля 2014

Это мое решение, которое работает как шарм:

//check string strict for encoding out of list of supported encodings
$enc = mb_detect_encoding($str, mb_list_encodings(), true);

if ($enc===false){
    //could not detect encoding
}
else if ($enc!=="UTF-8"){
    $str = mb_convert_encoding($str, "UTF-8", $enc);
}
else {
    //UTF-8 detected
}

akakargul · Answer 5 · 16 февраля 2017

Сканирует все файлы, находит любую кодировку из mb_list_encodings, имеет хорошую производительность.

    function detectFileEncoding($filePath){

    $fopen=fopen($filePath,'r');

    $row = fgets($fopen);
    $encodings = mb_list_encodings();
    $encoding = mb_detect_encoding( $row, "UTF-8, ASCII, Windows-1252, Windows-1254" );//these are my favorite encodings

    if($encoding !== false) {
        $key = array_search($encoding, $encodings) !== false;
        if ($key !== false)
            unset($encodings[$key]);
        $encodings = array_values($encodings);
    }

    $encKey = 0;
    while ($row = fgets($fopen)) {
        if($encoding == false){
            $encoding = $encodings[$encKey++];
        }

        if(!mb_check_encoding($row, $encoding)){
            $encoding =false;
            rewind($fopen);
        }

    }

    return $encoding;
}

jgpATs2w · Answer 6 · 17 сентября 2015

Для серверов Linux, я использую эту команду:

$file = 'your/file.ext'
exec( "from=`file -bi $file | awk -F'=' '{print $2 }'` && iconv -f \$from -t utf-8 $file -o $file" );

Amereservant · Answer 7 · 26 июня 2013

Я недавно столкнулся с этой проблемой, и вывод функции mb_convert_encoding() был UTF-8 . Посмотрев на заголовки ответа, ничего не упоминало о типе кодировки, поэтому я обнаружил Установить заголовок http равным utf-8 php , что предполагает следующее:

<?php
header('Content-Type: text/html; charset=utf-8');

После добавления этого в начало файла php все забавные символы исчезли, и он рендерился так, как должен. Не уверен, что именно эту проблему искал оригинальный постер, но я нашел это, пытаясь решить проблему сам, и решил, что поделюсь.

cbrulak · Answer 8 · 03 февраля 2009

Как вы собираетесь обрабатывать не-ascii символы из файла UTF-8 или 16 или 32?

Я спрашиваю, потому что я думаю, что у вас могут быть проблемы с дизайном здесь.

Я бы преобразовал ваш выходной файл в UTF-8 (или 16 или 32), а не наоборот.

Тогда у тебя не будет этой проблемы.

Рассматривали ли вы также проблемы безопасности, которые могут возникнуть при преобразовании экранированного кода UTF8? Смотрите этот комментарий :

Обнаружение многобайтовой кодировки

Выясните, в какой кодировке находится ваш исходный файл, затем преобразуйте его в UTF8, и все будет хорошо.

Определить кодировку файла в PHP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Определить кодировку файла в PHP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов