Как экспортировать файл Excel с китайскими символами в CSV? - PullRequest
10 голосов
/ 06 августа 2011

У меня есть документ Excel с таблицей данных, содержащей китайские символы.Я пытаюсь экспортировать эту электронную таблицу Excel в файл CSV для импорта в базу данных MySQL.

Однако, когда я сохраняю документ Excel в виде файла CSV, Блокнот отображает китайские символы получившегося файла CSV в виде вопросительных знаков.При импорте в MySQL сохраняются знаки вопроса, при этом полностью игнорируются исходные китайские символы.

Я подозреваю, что это может быть связано с использованием Excel с кодировкой UTF-8.Спасибо за вашу помощь!

Ответы [ 4 ]

9 голосов
/ 06 августа 2011

Насколько я знаю, Excel не сохраняет файлы CSV в любой кодировке Unicode.У меня недавно были похожие проблемы при попытке экспортировать файл в формате CSV с символом £.У меня было то преимущество, что я мог использовать другой инструмент в целом.

Моя версия Excel 2010 может экспортировать в формате Unicode File > Save As > Unicode Text (.txt), но на выходе получается файл с кодировкой UCS-2 с разделителями табуляцией.Я совсем не знаю MySQL, но кратко рассмотрю спецификации, и похоже, что он обрабатывает импорт с разделителями табуляции и UCS-2.Возможно, стоит попробовать этот вывод.

Редактировать: Кроме того, вы всегда можете открыть этот вывод Unicode в Notepad ++, преобразовать его в UTF-8 Encoding > Convert to UTF-8 without BOM и, возможно, также заменить все символы табуляции запятыми (используйте диалог замены)в режиме расширенного поиска: \t в поле Найти и , в поле Заменить.)

7 голосов
/ 19 ноября 2014

Следующий метод был протестирован и использован для импорта CSV-файлов в MongoDB, поэтому он должен работать:

  1. На рабочем листе Excel выберите «Файл»> «Сохранить как».

  2. Назовите файл и выберите Unicode Text (* .txt) в раскрывающемся списке рядом с «Сохранить как тип», а затем нажмите «Сохранить».

  3. Откройте файл Unicode .txt с помощью предпочитаемого текстового редактора, например Блокнота.

  4. Поскольку наш текстовый файл Unicode представляет собой файл с разделителями табуляции, и мы хотим преобразовать Excel в CSV (разделенный запятыми), нам необходимо заменить все вкладки запятыми.

  5. Выберите символ табуляции, щелкните его правой кнопкой мыши и выберите «Копировать» в контекстном меню или просто нажмите клавиши CTRL + C, какпоказано на снимке экрана ниже.

  6. Нажмите CTRL + H, чтобы открыть диалоговое окно Replace, и вставьте скопированную вкладку (CTRL + V) в поле Find what.Когда вы это сделаете, курсор переместится вправо, указывая, что вкладка была вставлена.Введите запятую в поле «Заменить на» и нажмите «Заменить все».

  7. Нажмите «Файл»> «Сохранить как», введите имя файла и измените кодировку на UTF-8.Затем нажмите кнопку Сохранить.

  8. Измените расширение .txt на .csv непосредственно в диалоговом окне «Сохранить как» в Блокноте и выберите «Все файлы» (. ) рядом с «Сохранить как тип»., как показано на снимке экрана ниже.

  9. Откройте файл CSV из Excel, выбрав Файл> Открыть> Текстовые файлы (.prn, .txt, .csv) и убедитесь, что данныеХорошо.

Источник здесь

3 голосов
/ 06 августа 2011

Возможно, вы захотите попробовать notepad ++, я сомневаюсь, что notepad будет поддерживать символы Юникода.

http://notepad -plus-plus.org /

0 голосов
/ 27 июля 2016

Я испробовал все вышеперечисленные методы для своих данных, но он не совсем работает для моих данных (упрощенный китайский, более 700 МБ. Я пробовал систему Windows на китайском и английском языках, английский и китайский Excel. на utf8 даже он заявляет, что делает это. Я указываю uft8 csv в save as, но когда я использую «открытый лист» для обнаружения методов кодирования. это не uft8, не GB *. Вот мое окончательное решение.

(1) Скачать 'open sheet'.

(2) Откройте его правильно. Вы можете прокрутить метод кодирования, пока не увидите китайский символ, отображаемый в окнах предварительного просмотра.

(3) Сохраните его как utf-8 (если вы хотите utf-8).

PS: Вам нужно выяснить кодировку по умолчанию в вашей системе. Как далеко насколько я знаю, Ubuntu прекрасно справляется с UTF8. Но окна по умолчанию Упрощенный китайский начинается с GB **. Даже если вы закодируете его как utf8, тем не менее, вы можете открыть его и правильно. В моем случае г не смог откройте мой utf-8 csv, но можете открыть кодировку GB *.

Этот метод хорошо работает, даже если ваш файл очень большой. Некоторые другие обходные пути - это лист Google (но размер файла может быть ограничен). Блокнот ++ также работает для меньшего файла.

Есть способ обнаружить методы кодирования, открыв файл и прокручивая методы кодирования, пока вы не увидите, что китайцы отображаются правильно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...