Очистить данные для импорта в базу данных Neo4J - PullRequest
0 голосов
/ 08 февраля 2020

Я Neo4j и Noob аналитика данных здесь. Я ищу программный c способ форматирования данных, которые я собираю из Active Directory, чтобы подготовить их для импорта в Neo4j. Прямо сейчас я использую PowerBI и DAX Stud ios для очистки данных так, как мне нужно, чтобы они выглядели, но это неэффективно и все еще требует большого ручного вмешательства. Я также погружаюсь в OpenRefine, чтобы сделать это, но я хочу посмотреть, что думают эксперты.

Моё главное видение заключается в том, чтобы иметь возможность взять необработанный файл и загрузить его в веб-интерфейс, получить черный чёрный файл c, обработать данные в формате так, как мне нужно, и затем загрузить это в fre sh Neo4j для анализа. Как только данные будут в бэкэнде, я в порядке до go. И у меня есть процесс сбора данных, который можно использовать в средах и собирать необработанную информацию. Это просто путешествие из пункта А в пункт Б. Любая помощь приветствуется. Спасибо!

Ответы [ 2 ]

1 голос
/ 10 февраля 2020

На топи c очистки данных. Когда я импортирую данные из файлов .csv, я часто использую: функцию apo c .map.clean для удаления пустых значений http://neo4j-contrib.github.io/neo4j-apoc-procedures/3.5/utilities/map-functions/

Также при анализе больших файлов CSV я часто удаляю ключи, которые мне не нужны

LOAD CSV WITH HEADERS FROM 'file:///segment_data.csv' as line FIELDTERMINATOR ','
WITH line LIMIT 1
WITH apoc.map.removeKeys(line, [i in keys(line) WHERE NOT i contains 'cust_']) as custKeys
WITH custKeys
RETURN apoc.map.clean(custKeys,[], ["","NA"]) AS output
0 голосов
/ 10 февраля 2020

Я бы использовал чайник. Он имеет разъемы для чтения из большого количества источников данных и записи в Neo4j.

https://medium.com/neo4j/getting-started-with-kettle-and-neo4j-32ff15b991f9

https://github.com/neo4j-examples/kettle-plugin-examples

...