Поиск в очень больших файлах (Open Academi c Graph / Microsoft Academi c Graph) - PullRequest
1 голос
/ 05 августа 2020

Я загрузил три разных файла MAG (Microsoft-Academi c Graph):

  1. MAG Venues (~ 10 ГБ)
  2. Документы MAG (~ 30 ГБ)
  3. Авторы MAG (~ 30 ГБ)

из Open Academi c График

Теперь я хочу выполнить поиск по идентификатору из MAG-Authors-File в MAG-Paper-Files, чтобы получить дополнительную информацию о публикациях автора (~ 30 ГБ).

Проблема:

Я попытался найти идентификатор в файле с Python например:

import ast
import timeit

with open("/Users/xyxz/Downloads/mag_authors_2/mag_authors_10.txt") as f:
    for line in f:
        xy = ast.literal_eval(line)
        if(xy["id"] == "2806941709"):
            print(xy)

Время: 85 секунд

Может ли кто-нибудь помочь мне повысить эффективность поиска? C или C ++ быстрее?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...