Удалите двойные кавычки из текста внутри JSON, используя Python и Regex - PullRequest
0 голосов
/ 22 мая 2019

У меня есть миллионы объектов JSON, отформатированных в виде строки с небольшим текстом внутри.Например:

'{"node": {"text": "Você entra numa livraria de livros jurídicos você tem 
uma pilha de livros dizendo: "você pode fazer isso". Ao lado você tem uma 
pilha de livros que contestam exatamente isso. Assim são as discussões 
sobre a legalidade da flexibilização do porte de armas. Eu examinei bem 
profundamente isso porque sou uma defensor da legítima defesa tive mais 
tempo que o próprio presidente para observar item a item e o presidente 
pode ficar tranquilo!"}}'

Мне удалось заменить одинарные кавычки на двойные, чтобы модуль JSON принял его.Но я испытываю много ошибок из-за двойных кавычек внутри «текста».Я пытаюсь написать выражение регулярного выражения, чтобы справиться с этим.Код, который я написал, заменяет не только первые двойные кавычки, но и те, которые идут сразу после 'text'.

re.sub(r'(:\s+"*)', ' ', text)

Как я могу написать регулярное выражение, которое очищает обе двойные кавычки из "você pode fazer isso" и сохраняетте, что после «текста» не повреждены?

1 Ответ

2 голосов
/ 23 мая 2019

Попробуйте использовать это:

\"([^{\":]+)\"(?!:)

и заменить на это:

$1

Regex101

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...