Вы можете сделать что-то вроде этого:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
# Create dummy dataframe, or load your own with pd.read_csv()
columns = ["sex", "age", "BMI", "smoke", "type"]
data = pd.DataFrame(np.array([[1,0,0,1,0], [23,16,94,18,24], [32, 26, 28, 23, 19], [0,1,1,1,0], [1,2,2,2,1]]).T, columns=columns)
x_col = "sex"
y_columns = ["age", "BMI", "smoke"]
for y_col in y_columns:
figure = plt.figure
ax = plt.gca()
ax.scatter(data[x_col], data[y_col])
ax.set_xlabel(x_col)
ax.set_ylabel(y_col)
ax.set_title("{} vs {}".format(x_col, y_col))
plt.legend()
plt.show()
По сути, если у вас есть набор данных, сохраненный как файл .csv
, вы можете загрузить его с пандами, используя pd.read_csv()
, и использовать имена столбцов в качестве ключей для доступа к соответствующим строкам и выполнять итерации по этому (здесь я создал фиктивный фрейм данных только ради этого).
Что касается части линейной регрессии, вы должны проверить библиотеку scikit-learn . В нем много регрессионных моделей для множества различных задач, таких как регрессия, классификация и кластеризация