Question

Я бы хотел проанализировать очень большой (около 200 МБ) RDF-файл в python. Должен ли я использовать саксофон или другую библиотеку? Я был бы признателен за очень простой код, на котором я могу построить, скажем, для получения тега.

Заранее спасибо.

Manuel Salvadores · Answer 1 · 07 октября 2010

Если вы ищете высокую производительность, то я бы порекомендовал вам использовать Raptor с Redland Python Bindings .Производительность Raptor, написанного на C, намного лучше, чем RDFLib.И вы можете использовать привязки python, если вы не хотите иметь дело с C.

Еще один совет по повышению производительности, забудьте о разборе RDF / XML, используйте другой вариант RDF, например Turtle или NTriples .Специально разбор ntriples намного быстрее, чем разбор RDF / XML.Это потому, что синтаксис ntriples проще.

Вы можете преобразовать свой RDF / XML в ntriples, используя rapper, инструмент, который поставляется с raptor:

rapper -i rdfxml -o ntriples YOUR_FILE.rdf > YOUR_FILE.ntriples

Файл ntriples будет содержать тройки, такие как:

<s1> <p> <o> .
<s2> <p2> "literal" .

и синтаксические анализаторы, как правило, очень эффективно обрабатывают эту структуру.Более того, память более эффективна, чем RDF / XML, потому что, как вы можете видеть, эта структура данных меньше.

Приведенный ниже код является простым примером использования привязок redland python:

import RDF
parser=RDF.Parser(name="ntriples") #as name for parser you can use ntriples, turtle, rdfxml, ...
model=RDF.Model()
stream=parser.parse_into_model(model,"file://file_path","http://your_base_uri.org")
for triple in model:
    print triple.subject, triple.predicate, triple.object

Базовый URI - это префиксный URI, если вы используете относительные URI внутри документа RDF.Вы можете проверить документацию по API привязок Python Redland в здесь

Если вам не важна производительность, используйте RDFLib , она проста и удобна в использовании.

Ed Summers · Answer 2 · 15 октября 2010

Я предпочитаю попробовать rdflib.Это приятное и быстрое создание прототипов, а внутреннее хранилище BerkeleyDB очень хорошо масштабируется на миллионы троек, если вы не хотите загружать весь график в память.

import rdflib

graph = rdflib.Graph("Sleepycat")
graph.open("store", create=True)
graph.parse("big.rdf")

# print out all the triples in the graph
for subject, predicate, object in graph:
    print subject, predicate, object

Tim McNamara · Answer 3 · 06 октября 2010

По моему опыту, SAX отлично подходит для производительности, но писать это тяжело.Если у меня нет проблем, я стараюсь не программировать с ним.

«Очень большой» зависит от ОЗУ машины.Предполагая, что ваш компьютер имеет более 1 ГБ памяти, lxml, pyxml или какая-либо другая библиотека e подойдет для файлов 200 МБ.

jsalonen · Answer 4 · 06 октября 2010

Для обработки RDF в Python рассмотрите возможность использования библиотеки RDF, например RDFLib .Если вам также требуется триплет-склад, доступны и более тяжелые решения, но они могут и не понадобиться ( PySesame , neo4jrdf с neo4jpy ).

Перед написанием собственного синтаксического анализатора SAX для RDF, проверьте rdfxml.py :

import rdfxml
data = open('data.rdf', 'r').read()
rdfxml.parseRDF(data)

Rafe Kettler · Answer 5 · 06 октября 2010

Не уверен, что sax - лучшее решение, но IBM, кажется, считает, что оно работает для высокопроизводительного анализа XML с Python: http://www.ibm.com/developerworks/xml/library/x-hiperfparse/. Их пример RDF превосходит ваш размер (200 МБ против 1,9 ГБ),их решение должно работать на вас.

Примеры этой статьи начинаются довольно просто и быстро подхватывают.

Разбор большого RDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор большого RDF в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы