Загрузка TTL по запросу sparql-update в GraphDB не удалась из-за диакритических знаков - PullRequest
2 голосов
/ 01 октября 2019

Загрузка данных о черепахах с использованием следующего сценария bash:

#!/usr/bin/env bash
RDF4J_ENDPOINT=endpoint_uri
DIR="~/modelio/workspace/IPR/"
IFS=
FILE=tmp.rq

function runUpdateQuery() {
    cp $1 $FILE
    sed -i -e "s!__VOC_IRI__!$2!g" $FILE
    curl --netrc-file .netrc -X POST -H "Content-type: application/sparql-update" -T $FILE $RDF4J_ENDPOINT/statements
}

function transform() {
    VOC_IRI=$1
    PREFIX=$2

    URL="$RDF4J_ENDPOINT/rdf-graphs/service?graph=$VOC_IRI"
    curl --netrc-file .netrc -X POST -H "Content-type: text/turtle" -T "$DIR/$PREFIX-model.ttl" $URL
}

transform http://onto.fel.cvut.cz/ontologies/slovník/datový-psp-2016 psp-2016

завершается неудачно с диакритическими знаками в словаре IRI (... / slovník / datový -...) со следующей ошибкой:

<code><!doctype html><html lang="en"><head><title>HTTP Status 400 – Bad Request</title><style type="text/css">h1 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:22px;} h2 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:16px;} h3 {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;font-size:14px;} body {font-family:Tahoma,Arial,sans-serif;color:black;background-color:white;} b {font-family:Tahoma,Arial,sans-serif;color:white;background-color:#525D76;} p {font-family:Tahoma,Arial,sans-serif;background:white;color:black;font-size:12px;} a {color:black;} a.name {color:black;} .line {height:1px;background-color:#525D76;border:none;}</style></head><body><h1>HTTP Status 400 – Bad Request</h1><hr class="line" /><p><b>Type</b> Exception Report</p><p><b>Message</b> Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986</p><p><b>Description</b> The server cannot or will not process the request due to something that is perceived to be a client error (e.g., malformed request syntax, invalid request message framing, or deceptive request routing).</p><p><b>Exception</b></p><pre>java.lang.IllegalArgumentException: Invalid character found in the request target. The valid characters are defined in RFC 7230 and RFC 3986
    org.apache.coyote.http11.Http11InputBuffer.parseRequestLine(Http11InputBuffer.java:467)
    org.apache.coyote.http11.Http11Processor.service(Http11Processor.java:294)
    org.apache.coyote.AbstractProcessorLight.process(AbstractProcessorLight.java:66)
    org.apache.coyote.AbstractProtocol$ConnectionHandler.process(AbstractProtocol.java:834)
    org.apache.tomcat.util.net.NioEndpoint$SocketProcessor.doRun(NioEndpoint.java:1417)
    org.apache.tomcat.util.net.SocketProcessorBase.run(SocketProcessorBase.java:49)
    java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
    java.lang.Thread.run(Thread.java:748)

Примечание Полная трассировка стека основной причины доступна в журналах сервера.

Apache Tomcat / 9.0.14

Когда диакритические знаки удалены, все работает хорошо. Есть идеи, что не так?

1 Ответ

3 голосов
/ 04 октября 2019

GraphDB использует Unicode и, в частности, кодировку UTF-8 для всех коммуникаций по HTTP. Чтобы передать что-то не-ASCII в URL, его нужно кодировать как UTF-8. Curl не будет делать это автоматически, если вы используете его таким образом. Вы можете либо кодировать URL-адрес UTF-8 в виде «í» и «ý» вручную (% C3% AD и% C3% BD), либо использовать эту функцию скручивания:

curl -X POST -H "Content-type: text/turtle" -T file.ttl\
     -G --data-urlencode "graph=http://onto.fel.cvut.cz/ontologies/slovník/datový-psp-2016"\
     http://hostname:7200/repositories/repo/rdf-graphs/service

Важноопция -G, которая указывает curl добавлять параметр в кодировке URL к URL.

...