Я пытаюсь написать программу для более глубокого анализа данных о биржевой торговле, но я наталкиваюсь на стену. Я проверяю все сделки за определенный период и создаю новый CSV-файл, чтобы использовать этот файл в качестве входных данных для прогнозирующей нейронной сети.
У кадра данных, который у меня сейчас есть, есть три значения: (1)цена акции;(2) количество акций, проданных по этой цене;и (3) метка времени Unix этой конкретной сделки. У меня проблемы с получением какого-либо точного статистического анализа данных. Например, если я использую .median (), программа смотрит только на количество перечисленных значений, а не на тот факт, что каждое значение могло быть продано сотни раз на основе столбца тома.
Например, это частичная история торговли для одной из акций, которую я пытаюсь проанализировать.
0 227.60 40 1570699811183
1 227.40 27 1570699821641
2 227.59 50 1570699919891
3 227.60 10 1570699919891
4 227.36 100 1570699967691
5 227.35 150 1570699967691 . . .
Чтобы лучше понять проблему, я также сгруппировал ее по цене и суммировал остальные столбцы с groupby('p').sum().
Я понимаю, что это означает, что отметка времени бесполезна, но упрощает визуализацию.
227.22 2 1570700275307
227.23 100 1570699972526
227.25 100 4712101657427
227.30 105 4712101371199
227.33 50 1570700574172
227.35 4008 40838209836171 . . .
Есть ли способ использовать число из столбца объема торгов для статистического анализа столбца цен? Я рассмотрел возможность создания нового фрейма данных, в котором каждая цена указана количество раз, когда он торгуется, но я не уверен, как это сделать.
Заранее благодарим за любую помощь!