Получение неправильного ответа с пандами и датами - PullRequest
0 голосов
/ 03 ноября 2019

У меня есть данные в таблице, которые выглядят как ЭТО , когда я открываю их в пандах.

Цель состоит в том, чтобы найти долю строк, где dtBegin-dtArrive занимает менее 5 минут.

Я сделал это. Вот код на Python 3:

wait_times = data["dtBegin"] - data["dtArrive"]

def to_seconds(x):
    return x.total_seconds()

wait_times_seconds = wait_times.apply(to_seconds)

intercept = np.mean(wait_times_seconds)

count = 0
for elem in wait_times_seconds:
    if abs(elem-intercept) <= 5*60:
        count += 1     
print(100*count/wait_times_seconds.shape[0])

Как вы можете видеть здесь, в конце я печатаю проценты и получаю: 42.993645133269325

Однако, если эта задача выполняется на matlab, ответоколо 46,9 (я знаю это точно)

Может кто-нибудь помочь мне исправить мой код, чтобы не потерять точность.

...