Как я могу получить типы для темы - PullRequest
2 голосов
/ 30 июня 2010

Насколько я понимаю, таксономия Freebase обычно сводится к этой иерархии:

Domain Category > Domain > Type > Topic

У меня есть приложение, которое получает входные данные и выполняет небольшую обработку естественного языка, которая выплевывает кучу терминов - некоторые полезные, а некоторые нет. Вначале пытаясь систематически «решить», является ли термин полезным, я решил «проверить» его на Freebase, предположив, что это тема и выяснив, имеет ли Freebase термин, классифицированный как минимум в один * 1006. * Тип .

Итак, что я пытаюсь сделать сейчас, учитывая тему, найти ее идентификаторы типов (и имена, в идеале). Если ничего не возвращается, это говорит мне кое-что о так называемой теме. Если возвращается один или несколько типов, то у меня есть не только некоторая мера полезности термина, но и возможность наложить таксономию Freebase и дать людям другой способ доступа к ней (через метафору этого дерева).

Например, я мог бы получать "Политику", "Политическую организацию", "администрацию", "фото", "MSN" и т. Д. Из движка НЛП. Какой MQL-запрос может сказать мне, какие типы связаны с этими темами, если таковые имеются?

Спасибо за вашу помощь.

UPDATE

У меня только что был один из тех грандиозных пощечин. Я отошел от вопроса, с которым я какое-то время возился, и когда я вернулся, я увидел ошибку своих путей. Я пытался сделать этот путь слишком сложным, и, как всегда, простое решение, которое я не мог увидеть, было именно тем, что мне нужно было увидеть:

[{
  "id": null,
  "name": "Politics",
  "type": [{"id": null, "name": null }]
}]​

Это подводит меня к немного другому вопросу. Я возвращаюсь к нескольким темам, одна из которых en / policy и куча других, чей идентификатор /m/... и т. Д. Я понимаю, что система Freebase сложна, но я еще далеко до понимания этой сложности. Для этого вида упражнений мне больше всего нужна тема /en/?

1 Ответ

1 голос
/ 30 июня 2010

В целом, / en / themes более заметны, чем / m / themes.Идентификаторы / m / ID автоматически присваиваются любой новой теме, добавляемой во Freebase, но сообщество / ru должно добавлять / en / вручную или полуавтоматически.Пока что большинство ключей / en / получены из Википедии (которая имеет свои собственные требования к известности), но они могут поступать откуда угодно.

Вот список некоторых других популярных пространств имен которые используются во Freebase.

Кроме того, поскольку вы упомянули использование NLP для сопоставления тем из текста во Freebase, вам может быть интересно прочитать об экспериментальном API согласования .Вот как вы найдете «лучшее соответствие» для темы, учитывая контекстуальные подсказки, имеющиеся в ваших данных.

...