Как использовать DBPedia для извлечения тегов / ключевых слов из контента? - PullRequest
20 голосов
/ 20 января 2011

Я изучаю, как использовать таксономическую информацию Википедии для извлечения тегов / ключевых слов из моего контента.

Я нашел статьи о DBPedia.DBpedia - это попытка сообщества извлечь структурированную информацию из Википедии и сделать ее доступной в Интернете.

Кто-нибудь пользовался их веб-сервисами?Вы знаете, как они работают и насколько это надежно?

Ответы [ 2 ]

21 голосов
/ 20 января 2011

DBpedia - фантастический, высококачественный ресурс.Однако, чтобы превратить ваш контент в набор соответствующих концепций DBpedia, вам необходимо точно идентифицировать их в тексте, что включает как минимум два шага:

  1. Определение концепций DBpedia вВаш контент: это включает в себя распознавание названий концептов (и альтернативных имен) в тексте, а также устранение неоднозначности среди всех возможных значений каждой фразы.Термин «Солнце» может относиться к десяткам возможных концепций в соответствии с его страницей устранения неоднозначности , включая звезду, газеты, имена людей и т. Д. Это включает идентификацию, классификацию и связывание сущностей.

  2. Укажите, какие из этих понятий интересны: например, хотите ли вы, чтобы понятие «Определенная статья» отображалось, когда текст включает термин «the» (на который перенаправляет )?

Возможно, вы захотите рассмотреть уже существующую библиотеку или службу текстовой аналитики, которая поддерживает связывание сущностей с DBpedia.Одним из отличных инструментов для индексации тем является Maui , разработанный Аленой Меделян во время ее кандидатской диссертации.Другим отличным решением с открытым исходным кодом является Wikipedia Miner , созданный Дэвидом Милном в том же университете.

Двумя коммерческими службами, которые предоставляют ссылки на концепции DBpedia, являются Zemanta и Extractiv (разрешить некоторый уровень бесплатного использования). Опция DBpedia опция.Другие, которые могут предоставить эти возможности, перечислены по адресу: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

Раскрытие информации: я [привык] работать в Extractiv (несуществующей), работающей на базе NLP Language Computer Corporation .

4 голосов
/ 27 октября 2011

Вы можете использовать Apache Stanbol для этого процесса.Entityhub компонент Apache Stanbol обеспечивает создание пользовательских индексов DBPedia на основе ваших потребностей.Затем вы можете использовать компонент Enhancer для извлечения объектов "Места", "Люди", "Местоположения" из вашего текста.

Для вас может быть полезна следующая ветка почты.запуск демоверсий Apache Stanbol по следующей ссылке:
http://dev.iks -project.eu /

Вы также можете задать свои дополнительные вопросы по номеру stanbol-dev AT incubator.apache.org.

...