Я сортирую большой старый набор данных с несколькими ошибками ввода.Я хочу очистить документы путем перебора строки, чтобы найти и изменить ошибки типа на основе критериев.Теперь я получаю ошибку ниже, когда пытаюсь удалить час-минуту-секунду в пандах.
Out of bounds nanosecond timestamp: 3016-03-09 00:00:00
Я думаю, что-то вроде:
import pandas as pd
df = pd.read_excel(r'raw data.xlsx', header = 0)
for date in Dates:
if date is out of bounds date time:
replace str[0-3] with Year, inplace = True
df['Date'].dt.year,month,day
print(df)
Типичная ошибка при наборе данных можетбыть датой в элементе 4
Item Description Date Year ...
1 Ketchup400 2015-10-27 00:00:00 2015 ...
2 Ketchup600 2018-02-16 00:00:00 2018 ...
3 Mustard800 2015-10-02 00:00:00 2015 ...
4 Mustard200 3016-03-09 00:00:00 2016 ...
1 Ketchup400 2018-02-26 00:00:00 2018 ...
... ... ... ... ...
Я хочу удалить часы, минуты и секунды из дат, исправить даты и напечатать новый файл ... Результат должен быть примерно таким:
Item Description Date Year ...
1 Ketchup400 2015-10-27 2015 ...
2 Ketchup600 2018-02-16 2018 ...
3 Mustard800 2015-10-02 2015 ...
4 Mustard200 2016-03-09 2016 ...
1 Ketchup400 2018-02-26 2018 ...
... ... ... ... ...