отсутствующие уникальные (%) значения и разбитые гистограммы в отчете профиля панд - PullRequest
0 голосов
/ 10 октября 2018

Я использую Python 2.7 и Pandas Profiling для создания отчета из кадра данных.Ниже приведен мой код:

import pandas as pd
import pandas_profiling

# the actual dataset is very large, just providing the two elements of the list 
data = [{'polarity': 0.0, 'name': u'danesh bhopi', 'sentiment': 'Neutral', 'tweet_id': 1049952424818020353, 'original_tweet_id': 1049952424818020353, 'created_at': Timestamp('2018-10-10 14:18:59'), 'tweet_text': u"Wouldn't mind aus 120 all-out but before that would like to see a Finch \U0001f4af #PakVAus #AUSvPAK", 'source': u'<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'location': u'pune', 'retweet_count': 0, 'geo': '', 'favorite_count': 0, 'screen_name': u'DaneshBhope'}, {'polarity': 1.0, 'name': u'kamal Kishor parihar', 'sentiment': 'Positive', 'tweet_id': 1049952403980775425, 'original_tweet_id': 1049952403980775425, 'created_at': Timestamp('2018-10-10 14:18:54'), 'tweet_text': u'@the_summer_game What you and Australia think\nPlay for\n win \nDraw\n or....! #PakvAus', 'source': u'<a href="http://twitter.com/download/android" rel="nofollow">Twitter for Android</a>', 'location': u'chembur Mumbai ', 'retweet_count': 0, 'geo': '', 'favorite_count': 0, 'screen_name': u'kaluparihar1'}]
df = pd.DataFrame(data) #data is a python list containing python dictionaries
pfr = pandas_profiling.ProfileReport(df)
pfr.to_file("df_report.html") 

Ниже приведен снимок экрана части файла df_report.html: enter image description here

Как видно на изображенииполе Unique (%) во всех переменных равно 0.0, хотя столбцы имеют уникальные значения.

Кроме того, диаграмма в переменной 'location' не работает.Для значений 22, 15, 4 столбец отсутствует, а единственный столбец - только для максимального значения.Это происходит во всех переменных.

Любая помощь будет оценена.

...