DBpedia - фантастический, высококачественный ресурс.Однако, чтобы превратить ваш контент в набор соответствующих концепций DBpedia, вам необходимо точно идентифицировать их в тексте, что включает как минимум два шага:
Определение концепций DBpedia вВаш контент: это включает в себя распознавание названий концептов (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы.Термин «Солнце» может относиться к десяткам возможных концепций в соответствии с его страницей устранения неоднозначности , включая звезду, газеты, имена людей и т. Д. Это включает идентификацию, классификацию и связывание сущностей.
Укажите, какие из этих понятий интересны: например, хотите ли вы, чтобы понятие «Определенная статья» отображалось, когда текст включает термин «the» (на который перенаправляет )?
Возможно, вы захотите рассмотреть уже существующую библиотеку или службу текстовой аналитики, которая поддерживает связывание сущностей с DBpedia.Одним из отличных инструментов для индексации тем является Maui , разработанный Аленой Меделян во время ее кандидатской диссертации.Другим отличным решением с открытым исходным кодом является Wikipedia Miner , созданный Дэвидом Милном в том же университете.
Двумя коммерческими службами, которые предоставляют ссылки на концепции DBpedia, являются Zemanta и Extractiv (разрешить некоторый уровень бесплатного использования). Опция DBpedia опция.Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
Раскрытие информации: я [привык] работать в Extractiv (несуществующей), работающей на базе NLP Language Computer Corporation .