Question

У меня есть датафрейм в следующей структуре.

Я видел этот пост здесь, в котором второй ответ говорит, что использование массива numpy для зацикливания огромного фрейма данных является лучшим,

Это мое требование:

Цикл по уникальным датам
Внутри уникальных дат в кадре данных, цикл по уникальному сеансу.
Как только я нахожусь в уникальном сеансе с уникальными датами, мне нужно выполнить некоторые операции

В настоящее время я использую цикл for, но он невыносимо медленный.Кто-нибудь может подсказать, как использовать массивы numpy для удовлетворения моих требований?как предложено в этом посте здесь?

РЕДАКТИРОВАТЬ:

Я разрабатываю мое требование здесь:
1. Цикл по уникальным датам
Что даст мне следующий кадр данных:
2. В пределах уникальных дат выполните цикл по уникальным идентификаторам sessionId.
Что даст мне что-то вроде этого:
3. Один разв уникальном sessionId в пределах уникальной даты
Найдите разницу во времени между последним элементом и первым элементом
Эта разница во времени добавляется в список для каждого уникального сеанса.
4. Вне 2-го цикла я возьмусреднее значение списка, созданного на предыдущем шаге.
5. Значение, полученное на шаге 4, добавляется в другой список

Цель состоит в том, чтобы найти среднюю разницу во временимежду последним и первым сообщением каждого сеанса в день

John Zwinck · Answer 1 · 24 сентября 2018

Использовать в групповом режиме:

grouped = df.groupby(['ChatDate", "sessionId"])
timediff = grouped.timestamp.last() - grouped.timestamp.first() # or max-min
timediff.mean() # this is your step 4

Используйте числовые массивы, чтобы ускорить итерацию в пандах.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используйте числовые массивы, чтобы ускорить итерацию в пандах.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов