Чтение JSON, содержащего Emojis Into Pandas Dataframe - PullRequest
4 голосов
/ 26 марта 2019

Я получаю файлы JSON в кодировке UTF-8, аналогичные

[
    {
        "FieldA": "regular string 1",
        "FieldB": "... \ud83e\uddc0"
    },
    {
        "FieldA": "regular string 2",
        "FieldB": "... \ud83d\ude0d"
    }
]

Я пытался прочитать их, используя

df = pd.read_json(file_path, orient="columns", encoding="utf-8")

Но я не могу читать в смайликах.Есть предложения?

Заранее спасибо.

1 Ответ

0 голосов
/ 26 марта 2019

Вы можете использовать json и json_normalize:

import json 
from pandas.io.json import json_normalize

j = [
    {
        "FieldA": "regular string 1",
        "FieldB": "... \ud83e\uddc0"
    },
    {
        "FieldA": "regular string 2",
        "FieldB": "... \ud83d\ude0d"
    }
]

s = json.dumps(j) # convert to string (serialize j to a json formatted string)
j2 = json.loads(s) # deserialize s to a python object
df = json_normalize(j2) # load to a dataframe

             FieldA FieldB
0  regular string 1  ... ?
1  regular string 2  ... ?
...