Question

У меня есть некоторые проблемы при сравнении массива с норвежскими символами с символом utf8.

Все символы, кроме специальных норвежских символов (æ, ø, å), работают нормально.

function isNorwegianChar($Char)
{
    $aNorwegianChars = array('a', 'A', 'b', 'B', 'c', 'C', 'd', 'D', 'e', 'E', 'f', 'F', 'g', 'G', 'h', 'H', 'i', 'I', 'j', 'J', 'k', 'K', 'l', 'L', 'm', 'M', 'n', 'N', 'o', 'O', 'p', 'P', 'q', 'Q', 'r', 'R', 's', 'S', 't', 'T', 'u', 'U', 'v', 'V', 'w', 'W', 'x', 'X', 'y', 'Y', 'z', 'Z', 'æ', 'Æ', 'ø', 'Ø', 'å', 'Å', '=', '(', ')', ' ', '-');
    $iArrayLength = count($aNorwegianChars);

    for($iCount = 0; $iCount < $iArrayLength; $iCount++)
    {
        if($aNorwegianChars[$iCount] == $Char)
        {
            return true;
        }
    }

    return false;

}

Если кто-нибудь имеет представление о том, что я могу сделать, пожалуйста, дайте мне знать.

Обновление:

Причина, по которой это необходимо, заключается в том, что я пытаюсь проанализировать текстовый файл, содержащий строки с норвежскими и китайскими словами, например словарь. Я хочу разбить строку на строки, одну из которых содержит норвежское слово, а другую - китайский. Это будет позже вставлено в базу данных. Пример строки:

импульсивный 形衝動的

imøtegå 動反對，反駁

imøtekomme 動符合

Алкоголмисбрук (эр) 名濫用酒精 (名濫用酒精的人)

alkoholpåvirket 形受酒精影響的

алкотест 名呼吸性酒精測試

Алкими (st) 名煉金術 (名煉金術士)

all, alt, alle, 形全部, 所有

Как видите, между словами могут быть пробелы, поэтому я не могу использовать что-то простое, например, взорвать, чтобы разделить китайские и норвежские слова. Я использую isNorwegianChar и перебираю строку, пока не найду символ, которого нет в массиве.

Проблема в том, что символы æ, ø и å не возвращаются как норвежские символы, и кажется, что китайское слово началось.

Вот код:

   //Open file.
$rFile = fopen("norsk-kinesisk.txt", "r");

// Loop through the file.
$Count = 0;
while(!feof($rFile))
{
    if(40== $Count)
    {
        break;
    }

    $sLine = fgets($rFile);

    if(0 == $Count)
    {
        $sLine = mb_substr($sLine, 3);
    }

    $iLineLength        = strlen($sLine);
    $bChineseHasStarted = false;
    $sNorwegianWord     = '';
    $sChineseWord       = '';
    for($iCount2 = 0; $iCount2 < $iLineLength; $iCount2++)
    {
        $char = mb_substr($sLine, $iCount2, 1);

        if(($bChineseHasStarted === false) && (false == isNorwegianChar($char)))
        {
            $bChineseHasStarted = true;
        }

        if(false === $bChineseHasStarted)
        {
            $sNorwegianWord .= $char;
        }
        else
        {
            $sChineseWord .= $char;
        }

        //echo $char;
    }

    $sNorwegianWord = trim($sNorwegianWord);
    $sChineseWord = trim($sChineseWord);

    $Count++;
}

fclose($rFile);

Joeri Sebrechts · Answer 1 · 03 октября 2008

Если ваш скрипт-файл PHP имеет кодировку ANSI вместо UTF-8, то на уровне байтов эти норвежские символы будут отличаться от того, какими они были бы, если бы они были закодированы в UTF-8. Поскольку PHP является языком обработки байтов, а не языком обработки текста, он должным образом сравнивает последовательности байтов и приходит к выводу, что они не совпадают.

Чтобы решить эту проблему, вы можете либо убедиться, что ваш PHP-скрипт имеет ту же кодировку, что и набор символов, с которым вы сравниваете, либо использовать библиотеки iconv или mbstring для преобразования в соответствующие наборы символов.

Кроме того, если вы еще не читали это, прочитайте это: http://www.joelonsoftware.com/articles/Unicode.html

Обновление:
Еще один момент, который вы должны принять во внимание, - убедиться, что то, что вы передаете в эту функцию, это то, что вы думаете. Если вы перебираете строку по одному символу за раз с помощью оператора индексации массива, это не сработает, потому что ваша строка UTF-8 может использовать два байта (две позиции индекса массива) для хранения одного символа. В mbstring есть функции для копирования текста из строк на основе позиций символов, а не байтов.

Gilles · Answer 2 · 03 октября 2008

Прежде всего, и я вернусь к UTF-8 позже, если никто не ответит, итерации, как вы, - очень плохой способ поиска в массиве. PHP имеет встроенные функции только для этого:

http://fr.php.net/array_search

Так что вы можете попробовать и посмотреть, поможет ли это с вашей проблемой. Также убедитесь, что файл PHP, который вы пишете, также закодирован в UTF-8!

UPDATE:

Попробуйте следующий код, который отлично работает на моем сервере. Если это не работает, проверьте, что PHP настроен на работу с UTF-8 по умолчанию, или добавьте необходимые вызовы ini_set.

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
<html>
<head><title>norvegian utf-8 test</title>
<meta http-equiv="Content-type" value="text/html; charset=UTF-8" />
</head>

<body>

<?php

function isSpecial($char) {
    $special_chars = array("æ", "ø", "å", "か");
    return (array_search($char, $special_chars) !== false);
}

if (isset($_REQUEST["char"])) {
    echo $_REQUEST["char"].(isSpecial($_REQUEST["char"])?" (true)":" (false)");
}


?>

<form  method="POST" accept-charset="UTF-8">
<input type="text" name="char">
<input type="submit" value="submit">
</form>


</body>
</html>

Christoffer · Answer 3 · 03 октября 2008

Я наконец понял это. Это может быть не очень хороший способ сделать это, но это работает.

Кажется, что массив, с которым я работал, был в другом кодировке, чем входной символ. Я решил это, создав строку из всех элементов массива, а затем использовал mb_strpos для поиска символов. Таким образом, единственное изменение в коде - это функция isNorwegianChar. Новая функция выглядит так:

function isNorwegianChar($Char)
{
    $sNorwegianChars = "'aAbBcCdDeEfFgGhHiIjJkKlLmMnNoOpPqQrRsStTuUvVwWxXyYzZæÆøØåÅ=() -,";

    if(mb_strpos($sNorwegianChars, $Char))
    {
        return true;
    }
    else
    {
        return false;
    }
}

Спасибо за помощь!

user22960 · Answer 4 · 05 октября 2008

Поскольку проблема состоит в том, чтобы отделить норвежские слова от китайских, почему бы вам не использовать явный глиф для этого (мне лично нравится "¶") вместо того, чтобы полагаться на алгоритм?

impulsiv¶ 形衝動的

Затем используйте mb-split или mb-substr в сочетании с mb-strpos .

Вы можете легко заменить его пробелом, если вам нужно вывести строку!

К сожалению, PCRE в PHP не позволяет нам использовать \ p с именами скриптов .

(ищите «InMusicalSymbols» в regexp.reference , в § «Свойства символов Unicode», чтобы понять, что я имею в виду)

Mote · Answer 5 · 03 октября 2008

Попробуйте использовать функции для utf8-кодирования и декодирования. может помочь

Benny Wong · Answer 6 · 03 октября 2008

Насколько я знаю, вам лучше всего установить mbstring (http://www.php.net/manual/en/ref.mbstring.php) расширение, если у вас есть доступ к веб-серверу.

Проблема с PHP utf8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проблема с PHP utf8

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов