Neo4j Утилиты импорта инструментов считают несоответствия - PullRequest
0 голосов
/ 11 мая 2018

Я импортировал свой набор данных с помощью инструмента импорта Neo4j. Результат выглядит так:

IMPORT DONE in 3m 4s 715ms. 
Imported:
  9252082 nodes
  12347926 relationships
  100924808 properties
Peak memory usage: 604.47 MB

Таким образом, общее количество узлов превышает 9 миллионов узлов. Я получил тот же результат, когда подсчитал строки фреймов данных Spark из файлов CSV, в которых хранятся данные. Однако когда я выполняю этот запрос в Neo4j, я получаю меньшее число:

MATCH (n) return count(*)

Итоговый счет: 4446119

Я проверил, что количество записей отличается только для одной конкретной таблицы, которая является самой большой. Таким образом, в Neo4j вместо 5893886 счет для этой таблицы равен 1087923

Итак, согласно результатам импорта, кажется, что все узлы импортированы, но эту тенденцию нельзя увидеть в Neo4j. В чем может быть причина такого поведения?

1 Ответ

0 голосов
/ 13 мая 2018

На мой взгляд, проблема в идентификаторах членов. По некоторым причинам в моем наборе данных несколько членов имеют одинаковые идентификаторы. Вот почему при запуске импорта с флагом --no-duplicates эти записи обрабатываются, но фактически не вставляются в базу данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...