Question

Я пишу скрипт на Python для извлечения «Имен сущностей» из коллекции тысяч новостных статей из нескольких стран и языков.

Я хотел бы использовать удивительную структурированную систему знаний DBPedia , например, для поиска имен "художников в Египте" и названий "компаний в Канаде".

(Если бы эта информация была в форме SQL, у меня не было бы проблем.)

Я бы предпочел скачать контент DBPedia и использовать его в автономном режиме. какие-либо идеи о том, что нужно сделать, и как локально запросить его из Python?

Manuel Salvadores · Answer 1 · 20 сентября 2011

Содержимое DBpedia в формате RDF. Дампы можно скачать с здесь

Dbpedia - это большой набор данных в RDF, для обработки того объема данных, который вам необходим для использования технологии Triple Store . Для Dbpedia вам понадобится один из трехместных магазинов, я рекомендую использовать Virtuoso или 4store . Я лично предпочитаю 4store.

После того, как ваш тройной магазин настроен с Dbpedia в нем. Вы можете использовать SPARQL для запроса троек Dbpedia RDF. Есть библиотеки Python, которые могут помочь вам в этом. 4store и Virtuoso могут вернуть вам результаты в JSON, чтобы вы могли легко обойтись без каких-либо библиотек.

Какой-то простой скрипт urllib, например ...

def query(q,epr,f='application/json'):
    try:
        params = {'query': q}
        params = urllib.urlencode(params)
        opener = urllib2.build_opener(urllib2.HTTPHandler)
        request = urllib2.Request(epr+'?'+params)
        request.add_header('Accept', f)
        request.get_method = lambda: 'GET'
        url = opener.open(request)
        return url.read()
    except Exception, e:
        traceback.print_exc(file=sys.stdout)
        raise e

может помочь вам запустить SPARQL ... например

>>> q1 = """
... select ?birthPlace where {
... <http://dbpedia.org/resource/Claude_Monet> <http://dbpedia.org/property/birthPlace> ?birthPlace .
...  }"""
>>> print query(q1,"http://dbpedia.org/sparql")

{ "head": { "link": [], "vars": ["birthPlace"] },
  "results": { "distinct": false, "ordered": true, "bindings": [
    { "birthPlace": { "type": "literal", "xml:lang": "en", "value": "Paris, France" }} ] } }
>>>

Надеюсь, это даст вам представление о том, как начать.

N. Alonso · Answer 2 · 06 января 2016

В python3 ответ будет выглядеть следующим образом с использованием библиотеки запросов:

def query(q, epr, f='application/json'):
    try:
        params = {'query': q}
        resp = requests.get(epr, params=params, headers={'Accept': f})
        return resp.text
    except Exception as e:
        print(e, file=sys.stdout)
        raise

Пример сценария Python, который использует DBPedia?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пример сценария Python, который использует DBPedia?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы