Сбой разбора JSON с моноимпортом - PullRequest
5 голосов
/ 20 июня 2011

Я получаю ошибку Assertion: 10340:Failure parsing JSON string при запуске mongoimport в конвейере через Github API, как показано ниже:

lsoave@ubuntu:~/rails/github/gitwatcher$ curl https://api.github.com/users/lgs/repos | mongoimport -h localhost -d gitwatch_dev -c repo -f repositories
connected to: localhost
 % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                Dload  Upload   Total   Spent    Left  Speed
 0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0Mon Jun 20 00:56:01 Assertion: 10340:Failure parsing JSON string near: [
100 22303  100 22303    0     0  31104      0 --:--:-- --:--:-- --:--:--  111k
0x816d8a1 0x8118814 0x84b357a 0x84b5bb8 0x84adc65 0x84b2ee1 0x60bbd6 0x80f5bc1
mongoimport(_ZN5mongo11msgassertedEiPKc+0x221) [0x816d8a1]
mongoimport(_ZN5mongo8fromjsonEPKcPi+0x3b4) [0x8118814]
mongoimport(_ZN6Import9parseLineEPc+0x7a) [0x84b357a]
mongoimport(_ZN6Import3runEv+0x1a98) [0x84b5bb8]
mongoimport(_ZN5mongo4Tool4mainEiPPc+0x1ce5) [0x84adc65]
mongoimport(main+0x51) [0x84b2ee1]
/lib/tls/i686/cmov/libc.so.6(__libc_start_main+0xe6) [0x60bbd6]
mongoimport(__gxx_personality_v0+0x3f1) [0x80f5bc1]
exception:Failure parsing JSON string near: [
[
...
...
Mon Jun 20 00:45:20 Assertion: 10340:Failure parsing JSON string near: "name": "t
0x816d8a1 0x8118814 0x84b357a 0x84b5bb8 0x84adc65 0x84b2ee1 0x126bd6 0x80f5bc1
mongoimport(_ZN5mongo11msgassertedEiPKc+0x221) [0x816d8a1]
mongoimport(_ZN5mongo8fromjsonEPKcPi+0x3b4) [0x8118814]
mongoimport(_ZN6Import9parseLineEPc+0x7a) [0x84b357a]
mongoimport(_ZN6Import3runEv+0x1a98) [0x84b5bb8]
mongoimport(_ZN5mongo4Tool4mainEiPPc+0x1ce5) [0x84adc65]
mongoimport(main+0x51) [0x84b2ee1]
/lib/tls/i686/cmov/libc.so.6(__libc_start_main+0xe6) [0x126bd6]
mongoimport(__gxx_personality_v0+0x3f1) [0x80f5bc1]
exception:Failure parsing JSON string near: "name": "t
"name": "tentacles"
...
...

смотрите полную трассировку здесь: http://pastie.org/2093486. В любом случае, формат json IВозвращение из Github API выглядит нормально (curl https://api.github.com/users/lgs/repos):

[
 {
    "open_issues": 0,
    "watchers": 3,
    "homepage": "http://scrubyt.org",
    "language": null,
    "forks": 1,
    "pushed_at": "2009-02-25T22:49:08Z",
    "created_at": "2009-02-25T22:22:40Z",
    "fork": true,
    "url": "https://api.github.com/repos/lgs/scrubyt",
    "private": false,
    "size": 188,
    "description": "A simple to learn and use, yet powerful web scraping toolkit!",
    "owner": {
     "avatar_url": "https://secure.gravatar.com/avatar/9c7d80ebc20ab8994e51b9f7518909ae?d=https://a248.e.akamai.net/assets.github.com%2Fimages%2Fgravatars%2
Fgravatar-140.png",
     "login": "lgs",
     "url": "https://api.github.com/users/lgs",
     "id": 1573
    },
    "name": "scrubyt",
    "html_url": "https://github.com/lgs/scrubyt"
 },
...
...
]

здесь это фрагмент: http://www.pastie.org/2093524.

Если я попытаюсь указать формат CSV, он работает:

lsoave@ubuntu:~/rails/github/gitwatcher$ curl https://api.github.com/users/lgs/repos | mongoimport -h localhost -d gitwatch_dev -c repo -f repositories --type csv
connected to: localhost
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 22303  100 22303    0     0  23914      0 --:--:-- --:--:-- --:--:--  106k
imported 640 objects
lsoave@ubuntu:~/rails/github/gitwatcher$ 

Ответы [ 4 ]

25 голосов
/ 20 января 2012

Это сработало для меня, используя "mongoimport --jsonArray ..."

2 голосов
/ 20 июня 2011

Хорошо, вот что может происходить.Во-первых, я удалил все новые строки в JSON, чтобы уменьшить количество ошибок с n (где n = количество строк) до 1. Затем оказывается, что мне пришлось обернуть массив JSON в другую переменную, и это сработало после этого.Я думаю, mongoimport предназначен для работы с mongoexport, поэтому, скорее всего, вы не сможете использовать его для импорта произвольного JSON.Однако, если вы хотите, то, что я сделал, было бы то, что вы должны были сделать в коде перед вызовом утилиты импорта.

Я использовал только 1 запись во время тестирования.Вот запись без перевода строки.

[{"url":"https://api.github.com/repos/lgs/scrubyt", "pushed_at": "2009-02-25T22:49:08Z","homepage": "http://scrubyt.org",  "forks": 1,"language": null,"fork": true,"html_url": "https://github.com/lgs/scrubyt","created_at": "2009-02-25T22:22:40Z", "open_issues": 0,"private": false,"size": 188,"watchers": 3,"owner": {"url": "https://api.github.com/users/lgs","login": "lgs","id": 1573,"avatar_url": "https://secure.gravatar.com/avatar/9c7d80ebc20ab8994e51b9f7518909ae?d=https://a248.e.akamai.net/assets.github.com%2Fimages%2Fgravatars%2Fgravatar-140.png"},"name": "scrubyt","description": "A simple to learn and use, yet powerful web scraping toolkit!"}]

Затем я обернул ее somedata (здесь можно использовать любое имя):

{somedata:[{"url":"https://api.github.com/repos/lgs/scrubyt", "pushed_at": "2009-02-25T22:49:08Z","homepage": "http://scrubyt.org",  "forks": 1,"language": null,"fork": true,"html_url": "https://github.com/lgs/scrubyt","created_at": "2009-02-25T22:22:40Z", "open_issues": 0,"private": false,"size": 188,"watchers": 3,"owner": {"url": "https://api.github.com/users/lgs","login": "lgs","id": 1573,"avatar_url": "https://secure.gravatar.com/avatar/9c7d80ebc20ab8994e51b9f7518909ae?d=https://a248.e.akamai.net/assets.github.com%2Fimages%2Fgravatars%2Fgravatar-140.png"},"name": "scrubyt","description": "A simple to learn and use, yet powerful web scraping toolkit!"}]}

И я смог увидетьзапись в монго.

> db.repo.findOne()
{
    "_id" : ObjectId("4dff91d29c73f72483e82ef2"),
    "somedata" : [
        {
            "url" : "https://api.github.com/repos/lgs/scrubyt",
            "pushed_at" : "2009-02-25T22:49:08Z",
            "homepage" : "http://scrubyt.org",
            "forks" : 1,
            "language" : null,
            "fork" : true,
            "html_url" : "https://github.com/lgs/scrubyt",
            "created_at" : "2009-02-25T22:22:40Z",
            "open_issues" : 0,
            "private" : false,
            "size" : 188,
            "watchers" : 3,
            "owner" : {
                "url" : "https://api.github.com/users/lgs",
                "login" : "lgs",
                "id" : 1573,
                "avatar_url" : "https://secure.gravatar.com/avatar/9c7d80ebc20ab8994e51b9f7518909ae?d=https://a248.e.akamai.net/assets.github.com%2Fimages%2Fgravatars%2Fgravatar-140.png"
            },
            "name" : "scrubyt",
            "description" : "A simple to learn and use, yet powerful web scraping toolkit!"
        }
    ]
}

Надеюсь, это поможет!

1 голос
/ 24 февраля 2013

Используя оба ответа, предоставленные @Daniel и @ lobster1234, я создал скрипт, который я использую для импорта записей json в mongo.

#!/bin/sh

if [ -z "$1" ] ;
then
    echo "missing argument"
    exit -1
fi

FILE=${1%%.json}

echo $FILE

cat $FILE.json | tr -d '\n' > $FILE.import.json

mongoimport --collection collection --db main --file $FILE.import.json --jsonArray --upsert
1 голос
/ 04 октября 2012

это работало нормально со мной после того, как я удалил любой \ n.Вы можете использовать tr в linux cat file.json |tr -d '\ n'> file.json

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...