Как получить статистику по одному столбцу данных, используя данные из второго столбца? - PullRequest
0 голосов
/ 30 октября 2019

Я пытаюсь написать программу для более глубокого анализа данных о биржевой торговле, но я наталкиваюсь на стену. Я проверяю все сделки за определенный период и создаю новый CSV-файл, чтобы использовать этот файл в качестве входных данных для прогнозирующей нейронной сети.

У кадра данных, который у меня сейчас есть, есть три значения: (1)цена акции;(2) количество акций, проданных по этой цене;и (3) метка времени Unix этой конкретной сделки. У меня проблемы с получением какого-либо точного статистического анализа данных. Например, если я использую .median (), программа смотрит только на количество перечисленных значений, а не на тот факт, что каждое значение могло быть продано сотни раз на основе столбца тома.

Например, это частичная история торговли для одной из акций, которую я пытаюсь проанализировать.

 0   227.60   40  1570699811183

 1   227.40   27  1570699821641

 2   227.59   50  1570699919891

 3   227.60   10  1570699919891

 4   227.36  100  1570699967691

 5   227.35  150  1570699967691 . . .

Чтобы лучше понять проблему, я также сгруппировал ее по цене и суммировал остальные столбцы с groupby('p').sum(). Я понимаю, что это означает, что отметка времени бесполезна, но упрощает визуализацию.

 227.22     2   1570700275307

 227.23   100   1570699972526

 227.25   100   4712101657427

 227.30   105   4712101371199

 227.33    50   1570700574172

 227.35  4008  40838209836171 . . .

Есть ли способ использовать число из столбца объема торгов для статистического анализа столбца цен? Я рассмотрел возможность создания нового фрейма данных, в котором каждая цена указана количество раз, когда он торгуется, но я не уверен, как это сделать.

Заранее благодарим за любую помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...