У меня есть CSV-файл со стоимостью акций 500 компаний за 5 лет (2013-2017).У меня есть следующие столбцы: дата, открытый, высокий, низкий, закрытый, объем и имя.Я хотел бы иметь возможность сравнить эти компании, чтобы увидеть, какие из них являются лучшими.Я думал о том, чтобы просто использовать среднее значение, но поскольку стоимость запасов первых собранных данных (январь 2013 г.) различна (некоторые начинаются с 30 долларов США, а другие - с 130 долларов США), трудно действительно сравнить, какие из них былилучший за эти 5 лет.Поэтому я бы хотел, чтобы значения первой даты каждой компании были равны нулю.По сути, я хочу вычесть значение закрытия из первой даты из остальных собранных данных.
Моя проблема в том, что, во-первых, мне трудно добраться до значения закрытия первых дат.Каким-то образом я хочу написать что-то вроде "data.loc (data ['close']). Iloc (0)".Но так как это фрейм данных, я не могу найти значение строки и перебрать фрейм данных.
Во-вторых, я не уверен, как я могу различать компании.Я хочу провести процедуру с нулевой точкой для каждой из этих 500 компаний, поэтому мне нужно как-то узнать, когда начинать все сначала.
Код, который у меня сейчас есть,
def main():
data = pd.read_csv('./all_stocks_5yr.csv', usecols = ['date', 'close', 'Name'])
comp_name = sorted(set(data.Name))
number_of = comp_name.__len__()
comp_mean = []
for i in comp_name:
frames = data.loc[data['Name'] == i]
comp_mean.append([i, frames['close'].mean()])
print(comp_mean)
Но это даст мне только среднее значение, без использования нулевой точки
Еще одна идея, которая у меня была, это просто сравнитьцена закрытия от первого значения (1 января 2013 г.) с ценой последнего значения (31 декабря 2017 г.), чтобы увидеть, насколько выросла / уменьшилась акция, в этом я не уверен, как я достигнублизкие значения из этих дат для каждой из 500 компаний.
У вас есть какие-либо рекомендации по любому из методов?
Заранее спасибо