Question

У меня есть CSV-файл, который содержит смесь английских и китайских символов (это список контактов, экспортированных из почтовой программы Mozilla Thunderbird). Я пытаюсь создать функцию, которая может извлечь информацию из этого файла. Похоже, что функция fgetcsv () не поддерживает многобайтовые символы. Поскольку я использую PHP5.2, у меня нет доступа к str_getcsv ().

Хотя приведенная выше ситуация относится к английскому и китайскому языкам, я ищу решение, которое будет работать на любом языке.

Прямо сейчас у меня есть функция namecards_import_str_getcsv () в качестве функции синтаксического анализа CSV, которая пытается имитировать str_getcsv ().

function namecards_import_str_getcsv($input, $delimiter = ',', $enclosure = '"', $escape = '\\', $eol = '\n') {
  if (!function_exists('str_getcsv')) {
    if (is_string($input) && !empty($input)) {
      $output = array();
      $tmp    = preg_split("/".$eol."/",$input);
      if (is_array($tmp) && !empty($tmp)) {
        while (list($line_num, $line) = each($tmp)) {
          if (preg_match("/" . $escape . $enclosure . "/", $line)) {
            while ($strlen = strlen($line)) {
              $pos_delimiter = strpos($line, $delimiter);
              $pos_enclosure_start = strpos($line, $enclosure);
              if (is_int($pos_delimiter) && is_int($pos_enclosure_start) && ($pos_enclosure_start < $pos_delimiter)) {
                $enclosed_str = substr($line, 1);
                $pos_enclosure_end = strpos($enclosed_str, $enclosure);
                $enclosed_str = substr($enclosed_str, 0, $pos_enclosure_end);
                $output[$line_num][] = $enclosed_str;
                $offset = $pos_enclosure_end + 3;
              } 
              else {
                if (empty($pos_delimiter) && empty($pos_enclosure_start)) {
                  $output[$line_num][] = substr($line, 0);
                  $offset = strlen($line);
                } 
                else {
                  $output[$line_num][] = substr($line,0,$pos_delimiter);
                  $offset = (!empty($pos_enclosure_start) && ($pos_enclosure_start < $pos_delimiter))? $pos_enclosure_start : $pos_delimiter + 1;
                }
              }
              $line = substr($line,$offset);
            }
          } 
          else {
            $line = preg_split("/" . $delimiter . "/", $line);

            /*
             * Validating against pesky extra line breaks creating false rows.
            */
            if (is_array($line) && !empty($line[0])) {
              $output[$line_num] = $line;
            }
          }
        }
        return $output;
      } 
      else {
        return false;
      }
    } 
    else {
      return false;
    }
  }
  else {
    return str_getcsv($input);
  }
}

Эта функция вызывается следующей строкой кода:

  $file = $_SESSION['namecards_csv_file'];

  if (file_exists($file->uri)) {
    // Load raw csv content into a handler variable.
    $handle = fopen($file->uri, "r");
    $cardinfo = array();
    while (($data = fgets($handle)) !== FALSE) {
      $data = namecards_import_str_getcsv($data);
      dsm($data);
      $cardinfo[] = $data[0];
    }
    fclose($handle);
  }
  else {
    drupal_set_message(t('CSV file doesn\'t exist'), 'error');
  }

В массиве результатов строки китайских символов находятся в правильном месте в массиве, поскольку они отображаются в виде символов, например. "С" *. * 1011

Другой метод, который я пробовал до этого, состоял в том, чтобы просто использовать fgetcsv () (см. Пример ниже). Но в этом случае элементы возвращаемого массива были пустыми.

$file = $_SESSION['namecards_csv_file'];

if (file_exists($file->uri)) {
  // Load raw csv content into a handler variable.
  $handle = fopen($file->uri, "r");
  $cardinfo = array();
  while (($data = fgetcsv($handle, 5000, ",")) !== FALSE) {
    dsm($data);
    $cardinfo[] = $data;
  }
  fclose($handle);
}
else {
  drupal_set_message(t('CSV file doesn\'t exist'), 'error');
}

Если вас интересует вот содержимое файла CSV:

First Name,Last Name,Display Name,Nickname,Primary Email,Secondary Email,Screen Name,Work Phone,Home Phone,Fax Number,Pager Number,Mobile Number,Home Address,Home Address 2,Home City,Home State,Home ZipCode,Home Country,Work Address,Work Address 2,Work City,Work State,Work ZipCode,Work Country,Job Title,Department,Organization,Web Page 1,Web Page 2,Birth Year,Birth Month,Birth Day,Custom 1,Custom 2,Custom 3,Custom 4,Notes,
Ben,Gunn,Ben Gunn,Benny,ben1@asdf.com,ben2@asdf.com,,+94 (10) 11111111,+94 (10) 22222222,+94 (10) 33333333,,+94 44444444444,12 Benny Lane,,Beijing,Beijing,100028,China,13 asdfsdfs,,sdfsf,sdfsdf,134323,China,Manager,Sales,Benny Inc,,,,,,,,,,,
乔,康,乔 康,小康,,,,,,,,,,,,,,,北京市朝阳区,,,,,,,,,,,,,,,,,,,

deceze · Answer 1 · 27 января 2012

_{Просто записываю в качестве ответа то, что выяснилось в комментариях:}

fgetcsv чувствителен к локали, поэтому убедитесь, что setlocale к локали UTF-8.

Как читать многобайтовые символы из файла CSV с помощью PHP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать многобайтовые символы из файла CSV с помощью PHP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов