Мне нужно указать пользовательский индекс для моей коллекции, который я сделал с помощью этой функции:
def insert_post_mongo (df):
if db.rss_crawler.estimated_document_count() == 0:
db.rss_crawler.create_index([("url_hashed", pymongo.HASHED)])
db.rss_crawler.insert_many(df.to_dict('records'))
Мой индекс получен из URL-адреса, который я преобразую с помощью библиотеки hashlib:
posts_df['url_hashed'] = [hashlib.md5(x.encode()).hexdigest() for x in posts_df['link']]
Однако, не уверен, что это правильный путь.Моя первоначальная идея состояла в том, чтобы создать Object_Id из этого URL, но я не смог понять, как.Для Object_id требуется 12-байтовый ввод или 24-символьная шестнадцатеричная строка, и я не нашел способа сделать это.Но все же, не уверен, что это вообще необходимо, или достаточно иметь вторичный индекс.
Есть идеи?Большое спасибо!
Рауль.