Я загрузил три разных файла MAG (Microsoft-Academi c Graph):
- MAG Venues (~ 10 ГБ)
- Документы MAG (~ 30 ГБ)
- Авторы MAG (~ 30 ГБ)
из Open Academi c График
Теперь я хочу выполнить поиск по идентификатору из MAG-Authors-File в MAG-Paper-Files, чтобы получить дополнительную информацию о публикациях автора (~ 30 ГБ).
Проблема:
Я попытался найти идентификатор в файле с Python например:
import ast
import timeit
with open("/Users/xyxz/Downloads/mag_authors_2/mag_authors_10.txt") as f:
for line in f:
xy = ast.literal_eval(line)
if(xy["id"] == "2806941709"):
print(xy)
Время: 85 секунд
Может ли кто-нибудь помочь мне повысить эффективность поиска? C или C ++ быстрее?