Представление рассеянной переменной на диаграмме рассеяния - PullRequest
0 голосов
/ 28 октября 2018

Под рассеянной переменной я имею в виду переменную x, которая имеет несколько значений x1,x2,...xn.Хотя я смог представить x1,x2,xn..., я также хочу представить x в единственном числе.

Допустим, x может иметь значения [1,2,3,4] и переменную yможет иметь значения [2,4,6,7], а другая переменная z может иметь значения [1,4].Мы могли бы построить значения x, y и z.Хотя мы могли бы сделать это, как узнать, от какого родителя происходит каждая точка?Есть ли способ построить это?В качестве примера я взял следующий случай:

Я пытаюсь построить график из фрейма данных, часть которого выглядит следующим образом:

                pc1       pc2  quality  kl  gl
    0    -1.619530  0.450950      5.0   4   1
    1    -0.799170  1.856553      5.0   4   1
    2    -0.748479  0.882039      5.0   4   1
    3     2.357673 -0.269976      6.0   1   2
    4    -1.619530  0.450950      5.0   4   1
    5    -1.583707  0.569195      5.0   4   1
    6    -1.101464  0.608015      5.0   4   1
    7    -2.248708 -0.416835      7.0   3   5
    8    -1.086887 -0.308569      7.0   4   1
    9     0.654790  1.665207      5.0   2   3
    10   -1.125204  0.860512      5.0   4   1
    11    0.654790  1.665207      5.0   2   3
    12   -3.026861  0.493540      5.0   3   5
    13    1.538898 -0.235126      5.0   0   2
    14    1.565268  4.795247      5.0   2   4
    15    1.621249  4.780070      5.0   2   4
    16    1.174566  1.142798      7.0   0   3
    17    2.695205  1.215494      5.0   1   2
    18   -0.722438  0.504672      4.0   4   1
    19    3.335313  0.753669      6.0   1   2
    20    0.623645  0.440113      6.0   0   3
    21   -0.205985  0.967949      5.0   0   3
    22    0.696407 -0.396999      5.0   0   3
    23    0.053106  0.416543      5.0   0   3
    24   -0.878555  0.381133      6.0   4   1
    25   -1.164634 -0.610355      5.0   3   1

Для подмножества, представляющего то же самое quality оценка.Я нанес соответствующие значения kl разными цветами.Я взял pc1 как ось X и pc2 как ось Y.Цвет точки на графике определяется kl.

Для фрагмента, который я дал ниже,

plt.figure('km')

for quality_class in np.unique(quality_scores):
    subset_to_plot = fdf[fdf['quality'] == quality_class] 
    plt.scatter(subset_to_plot['pc1'], subset_to_plot['pc2'], c = subset_to_plot['kl'], cmap='viridis')

plt.title(metrics.silhouette_score(reduced_data, km.labels_, metric='euclidean'))

сгенерированный график выглядит так: enter image description here

Полученный график соответствует ожидаемому.Цветные точки представляют столбец quality в терминах kl.Но есть ли способ также представить на том же графике столбец quality сам по себе?Как видно из фрагмента фрейма данных, столбец quality имеет несколько значений kl.

...