Загрузка текста в кодировке utf-8 в H2OFrame - PullRequest
0 голосов
/ 21 декабря 2018

У меня есть CSV-файл в кодировке utf-8, который я загружаю в H2O.ai в Python 3.7, используя

h2o.load_dataset("my.csv")

Скандинавские символы отображаются некорректно.Та же проблема сохраняется, если я сохраню свой H2OFrame на диск и открою в редакторе, используя utf-8.Как я могу заставить H2O.ai понять utf-8?

Большое спасибо.

1 Ответ

0 голосов
/ 10 января 2019

Я провел быстрый тест, используя предоставленные вами символы, и смог заставить все правильно отображаться в H2O-3 версии 3.20.0.8 и python 3.5, так что, надеюсь, новые версии также будут работать.

In [7]: dd = ["Tässä vähän tekstiä åäö"]

In [8]: h2o.H2OFrame(dd)
Parse progress: |█████████████████████████████████████████████████████████████████████████████| 100%
Out[8]:
C1
-----------------------
Tässä vähän tekstiä åäö

[1 row x 1 column]

Я также создал CSV со строкой в ​​качестве первой ячейки, и она, казалось, отображалась правильно.

In [12]: hhf = h2o.import_file('Scandinavians.csv', header=-1)
Parse progress: |████████████████████████████████████████████████████████████████████████████| 100%

In [13]: hhf
Out[13]:
C1      C2     C3       C4
------  -----  -------  ----
Tässä  vähän  tekstiä  åäö

[1 row x 4 columns].

(Если эти фрагменты кода не помогают, я могу попробоватьобновить мой ответ)

...