PyMongo: NatType ValueError при массовой вставке в новую коллекцию - PullRequest
0 голосов
/ 20 сентября 2018

Я пытаюсь использовать PyMongo для загрузки смешанного набора данных даты и текста в новую коллекцию на моем удаленном сервере MongoDB.

Однако я получаю сообщение об ошибке из-за смешанных нулевых значенийс датами - то есть строками, где вместо объекта datetime.datetime() есть значение None.

В качестве некоторого фона: необработанные данные хранятся в файле CSV, который я читаю в pandas.DataFrame() с использованием pandas.read_csv().Получив данные в pandas, я выполняю некоторую элементарную очистку перед преобразованием данных в список словарей, которые затем загружаю в коллекцию стандартным методом collection.insert_many().

Первоначально значенияв каждой строке / документе / словаре хранятся как строки.Однако перед загрузкой данных я конвертирую количество столбцов даты в datetime объекты, вызывая datetime.datetime.strptime() для каждого значения.Однако не в каждом словаре эти поля даты заполнены.Для этих словарей я просто использую None вместо datetime объекта.

Полученные данные, которые я пытаюсь загрузить, представляют собой список словарей с числомЗначения NoneType смешиваются, , и когда я звоню insert_many(), я получаю это:

ValueError: NaTType does not support utcoffset.

Я не знаком с utcoffset, и мои попытки исследовать этоменя смутило.

Кто-нибудь сталкивался с этой проблемой, или есть предложения о том, как обработать недостающие данные времени и даты в PyMongo?

Вот мой код:

import pandas as pd
import pymongo

source = '/path/to/data'
sampleData = pd.read_csv(source, dtype=str)

Date_Columns = [
    'date_a',
    'date_b',
    'date_c',
    'date_d'
]
cleanData = sampleData
for col in Date_Columns:

    # Convert the strings to datetime objects for each column.
    # If a value is null, then use a None object instead of a datetime.
    Strings = sampleData[col].values
    Formats = [dt.datetime.strptime(d, '%m/%d/%Y') if isinstance(d, str) else None for d in Strings]
    cleanData[col] = Formats

client = pymongo.MongoClient('XX.XX.XX.XX', 99999)
db = client['my_db']
c = db['my_collection']

# Convert the cleaned DataFrame into a list of dictionaries.
Keys = [key for key in sampleData.columns.values]
Data = [dict(zip(Keys, L)) for L in sampleData.values]

c.insert_many(Data)

И полный возврат:

Traceback (most recent call last):
  File "/Users/haru/my_git/projects/pipeline/stable/sofla_permits_sunnyisles.py", line 738, in <module>
    setup_db()
  File "/Users/haru/my_git/projects/pipeline/stable/sofla_permits_sunnyisles.py", line 679, in setup_db
    c.insert_many(Data)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/collection.py", line 753, in insert_many
    blk.execute(write_concern, session=session)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 513, in execute
    return self.execute_command(generator, write_concern, session)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 338, in execute_command
    self.is_retryable, retryable_bulk, s, self)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/mongo_client.py", line 1196, in _retry_with_session
    return func(session, sock_info, retryable)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 333, in retryable_bulk
    retryable, full_result)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/bulk.py", line 285, in _execute_command
    self.collection.codec_options, bwc)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/message.py", line 1273, in _do_bulk_write_command
    namespace, operation, command, docs, check_keys, opts, ctx)
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/pymongo/message.py", line 1263, in _do_batched_write_command
    namespace, operation, command, docs, check_keys, opts, ctx)
  File "pandas/_libs/tslibs/nattype.pyx", line 59, in pandas._libs.tslibs.nattype._make_error_func.f
ValueError: NaTType does not support utcoffset

1 Ответ

0 голосов
/ 20 сентября 2018

У большинства машин часы установлены на utc, что идеально.Это целочисленное значение в секундах от указанной даты (я полагаю, в 70-х годах).Это означает, что ваши графики для процессов не зависят от местного времени, в том числе от сильной головной боли, связанной с переходом на летнее время.

Смещение UTC по отношению к восточному стандарту США составляет 4-5 часов (в зависимости от перехода на летнее время).

Глядя на вашу ошибку, это ошибка pandas, а pandas.datetime не не хорошо играет с datetime.datetime.Преобразуйте его в datetime string необходимой точности.Это должно избежать этой ошибки.

...