Линия лучше всего подходит в Python для набора данных CSV? - PullRequest
0 голосов
/ 08 июня 2018

Я строю очень простой сюжет.У меня есть набор данных CSV, который выглядит следующим образом:

1,280.6
2,280.2
3,276.6
4,279.6
5,277.4
6,279.4
7,274.2
8,278.2
9,276.4
10,279.4
11,274.6
12,276.2
13,274.4
14,277.8

, и я строю его с помощью matplotlib следующим образом:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('dataset.csv', delimiter=',',header=None,names=['x','y'])

plt.plot(df['x'], df['y'], label='',color=current_palette)

plt.xlabel('x')
plt.ylabel('y')
plt.title('Title')
plt.show()

, который дает это: симпатичный график

Исходя из моих знаний и предыдущих ответов, которые я нашел здесь, я знаю, как рассчитать линию наилучшего соответствия, когда я строю заданное уравнение или диапазон или подобное.Но как лучше всего найти линию, наиболее подходящую для данного набора данных?

Большое спасибо!

1 Ответ

0 голосов
/ 14 июня 2018

Для нахождения линии наилучшего соответствия я бы порекомендовал использовать модуль линейной регрессии от scipy *1002*.

from scipy import stats.linregress
slope, intercept, r_value, p_value, std_err = stats.linregress(df['x'], df['y'])

Теперь, когда у вас есть наклон и перехват, вы можете построить линию наилучшего соответствия.

...