Question

У меня есть строка, подобная этой:

это [скобочный тест] "и тест кавычек"

Я пытаюсь написать что-то в Python, чтобы разделить его на пробелы, игнорируя пробелы в квадратных скобках и кавычках. Результат, который я ищу:

['this', 'is', 'скобочный тест', 'и тест кавычек']

Bryan Oakley · Answer 1 · 24 октября 2008

Вот упрощенное решение, которое работает с вашим тестовым вводом:

import re
re.findall('\[[^\]]*\]|\"[^\"]*\"|\S+',s)

Это вернет любой код, который соответствует либо

открывающая скобка, за которой следуют ноль или более символов без закрывающей скобки, за которыми следует закрывающая скобка,
двойная кавычка, за которой следует ноль или более не кавычек, после которых следует кавычка,
любая группа непробельных символов

Это работает с вашим примером, но может не сработать для многих реальных строк, с которыми вы можете столкнуться. Например, вы не сказали, что ожидаете с несбалансированными скобками или кавычками, или как вы хотите, чтобы одинарные кавычки или экранирующие символы работали. Однако для простых случаев вышеприведенного может быть достаточно.

PhE · Answer 2 · 25 октября 2008

Чтобы завершить пост Брайана и точно соответствовать ответу:

>>> import re
>>> txt = 'this is [bracket test] "and quotes test "'
>>> [x[1:-1] if x[0] in '["' else x for x in re.findall('\[[^\]]*\]|\"[^\"]*\"|\S+', txt)]
['this', 'is', 'bracket test', 'and quotes test ']

Не поймите неправильно весь используемый синтаксис: это не несколько инструкций в одной строке, а один функциональный (более устойчивый к ошибкам).

ddaa · Answer 3 · 24 октября 2008

Вот упрощенный синтаксический анализатор (проверенный на вашем примере ввода), который вводит шаблон проектирования State.

В реальном мире вы, вероятно, захотите создать настоящий парсер, используя что-то вроде PLY .

class SimpleParser(object):

    def __init__(self):
        self.mode = None
        self.result = None

    def parse(self, text):
        self.initial_mode()
        self.result = []
        for word in text.split(' '):
            self.mode.handle_word(word)
        return self.result

    def initial_mode(self):
        self.mode = InitialMode(self)

    def bracket_mode(self):
        self.mode = BracketMode(self)

    def quote_mode(self):
        self.mode = QuoteMode(self)


class InitialMode(object):

    def __init__(self, parser):
        self.parser = parser

    def handle_word(self, word):
        if word.startswith('['):
            self.parser.bracket_mode()
            self.parser.mode.handle_word(word[1:])
        elif word.startswith('"'):
            self.parser.quote_mode()
            self.parser.mode.handle_word(word[1:])
        else:
            self.parser.result.append(word)


class BlockMode(object):

    end_marker = None

    def __init__(self, parser):
        self.parser = parser
        self.result = []

    def handle_word(self, word):
        if word.endswith(self.end_marker):
            self.result.append(word[:-1])
            self.parser.result.append(' '.join(self.result))
            self.parser.initial_mode()
        else:
            self.result.append(word)

class BracketMode(BlockMode):
    end_marker = ']'

class QuoteMode(BlockMode):
    end_marker = '"'

zvoase · Answer 4 · 26 октября 2008

Ну, я сталкивался с этой проблемой довольно много раз, что побудило меня написать свою собственную систему для синтаксического анализа любого вида синтаксиса.

Результат этого можно найти здесь ; обратите внимание, что это может быть излишним, и оно предоставит вам что-то, что позволит вам анализировать операторы с квадратными и круглыми скобками, одинарными и двойными кавычками, как вам угодно Например, вы можете разобрать что-то вроде этого (пример написан на Common Lisp):

(defun hello_world (&optional (text "Hello, World!"))
    (format t text))

Вы можете использовать вложения, скобки (квадратные) и круглые скобки (круглые), одинарные и двойные кавычки, и это очень расширяемый.

Идея в основном является настраиваемой реализацией конечного автомата, который строит абстрактное синтаксическое дерево посимвольно. Я рекомендую вам взглянуть на исходный код (см. Ссылку выше), чтобы вы могли понять, как это сделать. Это возможно с помощью регулярных выражений, но попробуйте написать систему с использованием RE, а затем попытаться расширить (или даже понять) позже.

Kirk Strauser · Answer 5 · 24 октября 2008

Вот более процедурный подход:

#!/usr/bin/env python

a = 'this is [bracket test] "and quotes test "'

words = a.split()
wordlist = []

while True:
    try:
        word = words.pop(0)
    except IndexError:
        break
    if word[0] in '"[':
        buildlist = [word[1:]]
        while True:
            try:
                word = words.pop(0)
            except IndexError:
                break
            if word[-1] in '"]':
                buildlist.append(word[:-1])
                break
            buildlist.append(word)
        wordlist.append(' '.join(buildlist))
    else:
        wordlist.append(word)

print wordlist

Sanjaya R · Answer 6 · 24 октября 2008

Работает только для цитат.

rrr = []
qqq = s.split('\"')
[ rrr.extend( qqq[x].split(), [ qqq[x] ] )[ x%2]) for x in range( len( qqq ) )]
print rrr

Расщепление строк в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расщепление строк в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы