Question

Рассмотрите этот текст:

Хотите, чтобы ответы на ваши вопросы отправлялись вам по электронной почте?

Я собираюсь предложить несколько вариантов на несколькослова, помечая их так:

Хотели бы вы [получить] | [имея] | g [чтобы получить] ответы на ваши вопросы, отправленные [до] | g [к] | [на] вы по электронной почте?

Варианты заключены в скобки и разделены трубами
Хорошему выбору предшествует g

Я бы хотел разобрать это предложение, чтобы получить текст, отформатированный так:

Вы хотели бы ___ ответы на ваши вопросы, отправленные __ вам по электронной почте?

Со списком вроде:

[
  [
    {"to get":0},
    {"having":0},
    {"to have":1},
  ],
  [
    {"up to":0},
    {"to":1},
    {"on":0},
  ],
]

Мой дизайн разметки в порядке?
Как отразить предложение, чтобы получить нужный результат и создать список?

edit : необходим пользовательский язык разметки

reclosedev · Answer 1 · 06 января 2012

Я бы добавил несколько скобок для группировки {} и вывел бы не список списков, а список диктов.

Код:

import re

s = 'Would you like {[to get]|[having]|g[to have]} responses to your questions sent {[up to]|g[to]|[on]} you via email ?'

def variants_to_dict(variants):
    dct = {}
    for is_good, s in variants:
        dct[s] = 1 if is_good == 'g' else 0
    return dct

def question_to_choices(s):
    choices_re = re.compile(r'{[^}]+}')
    variants_re = re.compile(r'''\|?(g?)
                                 \[
                                    ([^\]]+)
                                 \]
                                ''', re.VERBOSE)
    choices_list = []
    for choices in choices_re.findall(s):
        choices_list.append(variants_to_dict(variants_re.findall(choices)))

    return choices_re.sub('___', s), choices_list

question, choices = question_to_choices(s)
print question
print choices

Выход:

Would you like ___ responses to your questions sent ___ you via email ?
[{'to have': 1, 'to get': 0, 'having': 0}, {'to': 1, 'up to': 0, 'on': 0}]

Ski · Answer 2 · 06 января 2012

Я также предложу свое решение:

Хотите, чтобы {получили | имея | + иметь} ответы на ваши вопросы, отправленные {до | + на | на} вам по электронной почте?

def extract_choices(text):
    choices = []

    def callback(match):
        variants = match.group().strip('{}')
        choices.append(dict(
            (v.lstrip('+'), v.startswith('+'))
            for v in variants.split('|')
        ))
        return '___'

    text = re.sub('{.*?}', callback, text)

    return text, choices

Давайте попробуем:

>>> t = 'Would you like {to get|having|+to have} responses to your questions    sent {up to|+to|on} you via email?'
>>> pprint.pprint(extract_choices(t))
... ('Would you like ___ responses to your questions sent ___ you via email?',
... [{'having': False, 'to get': False, 'to have': True},
...  {'on': False, 'to': True, 'up to': False}])

pawroman · Answer 3 · 06 января 2012

Реализация грубого анализа с использованием регулярных выражений:

import re
s = "Would you like [to get]|[having]|g[to have] responses to your questions sent [up to]|g[to]|[on] you via email ?"   # pattern string

choice_groups = re.compile(r"((?:g?\[[^\]]+\]\|?)+)")  # regex to get choice groups
choices = re.compile(r"(g?)\[([^\]]+)\]")  # regex to extract choices within each group

# now, use the regexes to parse the string:
groups = choice_groups.findall(s)
# returns: ['[to get]|[having]|g[to have]', '[up to]|g[to]|[on]']

# parse each group to extract possible choices, along with if they are good
group_choices = [choices.findall(group) for group in groups]
# will contain [[('', 'to get'), ('', 'having'), ('g', 'to have')], [('', 'up to'), ('g', 'to'), ('', 'on')]]

# finally, substitute each choice group to form a template
template = choice_groups.sub('___', s)
# template is "Would you like ___ responses to your questions sent ___ you via email ?"

Разбор этого в соответствии с вашим форматом теперь должен быть довольно простым. Удачи:)

jcollado · Answer 4 · 06 января 2012

Я также думаю, что для этой задачи xml гораздо более уместен, потому что уже есть много доступных инструментов, которые сделают разбор гораздо проще и менее подвержены ошибкам.

В любом случае, если вы решите использовать свойдизайн, я бы сделал что-то вроде этого:

import re

question_str = ("Would you like [to get]|[having]|g[to have] "
                "responses to your questions sent "
                "[up to]|g[to]|[on] you via email ?")

def option_to_dict(option_str):
     if option_str.startswith('g'):
          name = option_str.lstrip('g')
          value = 1
     else:
          name = option_str
          value = 0
     name = name.strip('[]')
     return {name: value}

regex = re.compile('g?\[[^]]+\](\|g?\[[^]]+\])*')

options = [[option_to_dict(option_str)
            for option_str in match.group(0).split('|')]
           for match in regex.finditer(question_str)]
print options

question = regex.sub('___', question_str)
print question

Пример вывода:

[[{'to get': 0}, {'having': 0}, {'to have': 1}], [{'up to': 0}, {'to': 1}, {'on': 0}]]
Would you like ___ responses to your questions sent ___ you via email ?

Примечание: Что касается дизайна, я думаю, что было бы лучше иметь метку, чтобы установить начало/ конец всего набора параметров (не один для отдельных параметров).

Python - Разбор разметки с множественным выбором

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python - Разбор разметки с множественным выбором

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы