Есть ли способ найти шаблоны в столбце в Pandas DataFrame - PullRequest
3 голосов
/ 06 марта 2020

У меня Pandas DataFrame из missing dataframes от большего dataset. Столбец web_id содержит ids, отсутствующие в larger dataframe.

Я пытаюсь найти шаблон по тому, как они отсутствовали в большем dataset.

Например, следующий код воспроизводится на вашем локальном компьютере. Ниже приведен образец моего набора данных на данный момент:

pd.DataFrame({
"web_id": [43291, 43300, 43313, 43316, 43335, 43345, 43346, 43353, 43361, 43373, 43383, 43387, 43416],
"date": "12/17/2019"
})

Я полагаю, что в пропусках есть какие-то закономерности. Как я могу найти последовательность web_id, чтобы понять, как отсутствовали данные из большего dataset?

Большое спасибо заранее

1 Ответ

1 голос
/ 06 марта 2020
x = pd.DataFrame({ "web_id": [43291, 43300, 43313, 43316, 43335,
43345, 43346, 43353, 43361, 43373, 43383, 43387, 43416], })

ls = [] 
for i in x.values:  
   for j in i:        
       ls.append(j)

for i in range(len(ls)-1):    
    print(ls[i+1] - ls[i])

Это распечатает разницу между каждым значением в столбцах. Я не заметил никакой математической последовательности, по крайней мере, используя этот метод разности.

вывод: 9, 13, 3, 19, 10, 1, 7, 8, 12, 10, 4, 29

На самом деле, вы можете go здесь https://oeis.org/, чтобы проверить, была ли последовательность найдена ранее. Это не так. Удачи!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...