Чтобы дать пример того, как go из коллекции текста в граф знаний, предположим, что весь ваш текст связан с определенной областью знаний - в примере поста блога, который вы упоминаете, мы имеем дело с публикациями по биомедицинским исследованиям.
Первым шагом могло бы стать нахождение сущностей или определенных «вещей» в тексте. Чтобы придерживаться биомедицинского примера, мы могли бы искать лекарства и гены, упомянутые в публикациях. Это называется распознаванием именованных сущностей (NER), техникой, применяемой при добыче текста.
Если в той же публикации часто упоминается определенное лекарство, как определенный ген, они «встречаются» и скорее всего, связано каким-то образом. Это было бы примером отношений. Автоматическое извлечение того, как именно они связаны, представляет собой сложную проблему и называется извлечением отношений (RE).
Решения как для NER, так и для RE обычно определяются доменом c (в пределах от простого соответствия словаря условия для моделей искусственного интеллекта).
Если вас интересует майнинг текста, хорошее место для начала в python - NLTK .
Идея знания График должен помещать определенные вещи, называемые сущностями, в определенные отношения друг с другом для создания контекста После того, как у вас есть список сущностей, которые вы нашли во всех ваших документах, а также их отношения (как в примере выше, совместное вхождение в документ или даже одно предложение), вы можете определить схему и загрузить сущности и отношения в grakn и использовать все его функции для анализа ваших данных.
Обучающее руководство по использованию grakn с уже извлеченными данными, см. здесь