Гракн: как я могу построить граф знаний из коллекции текстов? - PullRequest
4 голосов
/ 26 марта 2020

У меня есть несколько документов (pdf и txt) в моей записной книжке, и я хочу построить граф знаний, используя Grakn.

Через Google я нашел блог , но документации нет или readme учит, как это сделать.

Также написано в блоге "Сценарий для моего текста можно найти в нашем репозитории GitHub здесь ", но я не понимаю, что мне нужно do.

Может кто-нибудь здесь посоветовать мне, как построить граф знаний из текста, используя Grakn?

Ответы [ 2 ]

3 голосов
/ 28 марта 2020

Grakn - это система знаний / сеть, которая понимает знания по четко определенным сущностям и отношениям (онтологии), поэтому вам нужно использовать NLP (обработка естественного языка), чтобы сделать человеческий язык доступным для графической сети. также вам нужно OCR (оптическое распознавание символов), чтобы преобразовать некоторые текстовые изображения в текст. также вы должны научить сетевые основы c онтологии понимать тексты. вы на самом деле идете через эру Сингулярности.

2 голосов
/ 16 апреля 2020

Чтобы дать пример того, как go из коллекции текста в граф знаний, предположим, что весь ваш текст связан с определенной областью знаний - в примере поста блога, который вы упоминаете, мы имеем дело с публикациями по биомедицинским исследованиям.

Первым шагом могло бы стать нахождение сущностей или определенных «вещей» в тексте. Чтобы придерживаться биомедицинского примера, мы могли бы искать лекарства и гены, упомянутые в публикациях. Это называется распознаванием именованных сущностей (NER), техникой, применяемой при добыче текста.

Если в той же публикации часто упоминается определенное лекарство, как определенный ген, они «встречаются» и скорее всего, связано каким-то образом. Это было бы примером отношений. Автоматическое извлечение того, как именно они связаны, представляет собой сложную проблему и называется извлечением отношений (RE).

Решения как для NER, так и для RE обычно определяются доменом c (в пределах от простого соответствия словаря условия для моделей искусственного интеллекта).

Если вас интересует майнинг текста, хорошее место для начала в python - NLTK .

Идея знания График должен помещать определенные вещи, называемые сущностями, в определенные отношения друг с другом для создания контекста После того, как у вас есть список сущностей, которые вы нашли во всех ваших документах, а также их отношения (как в примере выше, совместное вхождение в документ или даже одно предложение), вы можете определить схему и загрузить сущности и отношения в grakn и использовать все его функции для анализа ваших данных.

Обучающее руководство по использованию grakn с уже извлеченными данными, см. здесь

...