Нан значения при построении Matplotlib - PullRequest
0 голосов
/ 11 сентября 2018

Привет. Я пытаюсь отобразить большой объединенный набор данных на графике рассеянного графика, чтобы найти взаимосвязь между ВВП на душу населения и количеством детей.Фрейм данных выглядит примерно так.Как удалить строки с помощью значений Nan и построить график разброса?Или я просто строю график прямо, и он будет игнорировать все строки со значением NaN?Любая помощь будет большой благодарностью :) Кроме того, при вычислении среднего значения для второго и третьего столбца, я показываю результат в другом столбце?

Country | Number of kids | GDP per capita
  A     |      4         |    2345
  B     |      2         |    2156
  C     |     NaN        |    1156
  D     |     5          |    958
  E     |     NaN        |    NaN
  F     |     8          |    NaN
.
.
.
 Z      |     3          |    2 

1 Ответ

0 голосов
/ 11 сентября 2018

Используйте функцию pandas 'dropna(), чтобы удалить nan, а затем нанесите ее на график scatter() matplotlib.

import pandas as pd
import matplotlib.pyplot as plt
enter code here
df = <your dataset>
plot_df = df.dropna()
plt.scatter(plot_df['Number of kids'], plot_df['GDP per capita'])

Если ваш набор данных очень большой, рассмотрите возможность использования функции выборки для случайного выборапример данных:

df = df.sample(1000)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...