Я пытаюсь импортировать большой набор данных (900 млн узлов, 3 млрд свойств, 4 млрд связей) из CSV в Neo4j с помощью инструмента импорта neo4j-admin.Я мог видеть, что импорт узлов и отношений (фаза 1 и 2) завершился очень быстро менее чем за час, но фаза связывания отношений замедляется на 40%, и сейчас она заканчивается почти на 55%, когда я пишу это, а фаза заняла почти 10часов, чтобы достичь этих 55%.
Проверяя дамп кучи, я не вижу никаких объектов, занимающих огромное пространство.Дамп потока показывает несколько ожидающих потоков.
Использование Neo4J Community Edition 3.4.1
Среда
- 12 ядер
- 32 ГБ ОЗУ
- CSV в хранилище NFS
- HEAP_SIZE, установленный на 20 г до импорта
Доступные ресурсы :
- Общий объем памяти компьютера: 31,26 ГБ
- Свободная память машины: 30,00 ГБ
- Макс. Память кучи: 19,56 ГБ
- Процессоры: 12
- Конфигурированная макс. Память: 10,54 ГБ
- High-IO: true
Импорт начинается 2018-12-12 23: 19: 23,740 + 0000
Предполагаемое количество узлов: 896,16 M
Предполагаемое количество свойств узла: 3,05 G
Предполагаемое количество связей: 3,97 G
Предполагаемое количество свойств отношений: 15,18 G
Предполагаемое использование дискового пространства: 430,98 ГБ
Предполагаемое требуемое использование памяти: 12,01 ГБ
Текущая верхняя статистика
% ЦП: 2,3 us, 1.8 sy, 0.0 ni, 27.6 id, 68.2 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 32780080 всего, 240616 свободных, 19537508 использованных, 13001956 бафф / кэш
KiB Swap: всего 4194300, 3052484 свободных, 1141816 используемых.12778128 без изменений Mem
PID PR пользователя NIR VIRT RES SHR S% CPU% MEM TIME + КОМАНДА
1739 xxx 20 0 37,5g 18,2g 0 S 41,9 58,3 931: 43,81 java
дамп потокадоступно здесь
дамп кучи доступно здесь