Neo4j admin импорт медленный и зависает на полпути - PullRequest
0 голосов
/ 13 декабря 2018

Я пытаюсь импортировать большой набор данных (900 млн узлов, 3 млрд свойств, 4 млрд связей) из CSV в Neo4j с помощью инструмента импорта neo4j-admin.Я мог видеть, что импорт узлов и отношений (фаза 1 и 2) завершился очень быстро менее чем за час, но фаза связывания отношений замедляется на 40%, и сейчас она заканчивается почти на 55%, когда я пишу это, а фаза заняла почти 10часов, чтобы достичь этих 55%.
Проверяя дамп кучи, я не вижу никаких объектов, занимающих огромное пространство.Дамп потока показывает несколько ожидающих потоков.

Использование Neo4J Community Edition 3.4.1

Среда

  • 12 ядер
  • 32 ГБ ОЗУ
  • CSV в хранилище NFS
  • HEAP_SIZE, установленный на 20 г до импорта

Доступные ресурсы :

  • Общий объем памяти компьютера: 31,26 ГБ
  • Свободная память машины: 30,00 ГБ
  • Макс. Память кучи: 19,56 ГБ
  • Процессоры: 12
  • Конфигурированная макс. Память: 10,54 ГБ
  • High-IO: true

Импорт начинается 2018-12-12 23: 19: 23,740 + 0000

Предполагаемое количество узлов: 896,16 M
Предполагаемое количество свойств узла: 3,05 G
Предполагаемое количество связей: 3,97 G
Предполагаемое количество свойств отношений: 15,18 G
Предполагаемое использование дискового пространства: 430,98 ГБ
Предполагаемое требуемое использование памяти: 12,01 ГБ

Текущая верхняя статистика

% ЦП: 2,3 us, 1.8 sy, 0.0 ni, 27.6 id, 68.2 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 32780080 всего, 240616 свободных, 19537508 использованных, 13001956 бафф / кэш
KiB Swap: всего 4194300, 3052484 свободных, 1141816 используемых.12778128 без изменений Mem

PID PR пользователя NIR VIRT RES SHR S% CPU% MEM TIME + КОМАНДА
1739 xxx 20 0 37,5g 18,2g 0 S 41,9 58,3 931: 43,81 java

дамп потокадоступно здесь

дамп кучи доступно здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...