Читайте не-ascii excel с объединенными ячейками, где ** есть ** фактический NA - PullRequest
0 голосов
/ 21 ноября 2018

Я пытался прочитать данные из большого файла xlsx, используя pandas, содержащий много объединенных ячеек (асинхронно для каждого столбца).Я уже читал подобный вопрос здесь:

Панды: чтение Excel со слитыми ячейками

Но мой файл действительно содержит NA (т.е. пустые ячейки).Если я использую решение в этом вопросе, ячейки NA будут заполнены вещами над ним, что будет иметь решающее значение для этих данных.

У меня установлен Excel 2013 на этом компьютере.Я попытался Saving as файл как csv или Unicode Text, но это также не работает по следующим причинам:

  • Объединенные ячейки не будут сохранены правильно (т.е. будутне заполняется)

  • Файл написан на китайском языке (т.е. не ASCII, вероятно, GB2312).Существует много проблем с сохранением файлов Excel, отличных от ASCII, в формат, отличающийся от Excel.Excel не может самостоятельно открыть файл csv (он либо сообщает failed to open broken SYLK file, либо просто показывает мусор).Notepad ++ может открыть его, но некоторые тексты становятся нечитаемым мусором.Я попытался изменить параметр Encoding в Web Options на UTF-8, Unicode, GB2312, GBK и т. Д., Но ни один из них не работает.

Мне интересно, как я могу читать не ASCII Excel с объединенными ячейками, где являются фактическим NA?Решения, отличные от Pandas или Excel, также хороши, но решения на стороне Python приветствуются.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...