Проблема с красивым супом () - PullRequest
1 голос
/ 20 июля 2011

ОБЩИЙ XML OUTLINE:

<dasbhoards>
  <dashboard name="S1>
    <repository-location derived-from='http://dataviz.win.compete.com/workbooks/OTCSurvey_06_15_11_16_54/RT4?rev=' id='RT4' path='/workbooks/RetailFootwear' revision='' />
    <style>
    </style>
    <zones>
      <zone h='92975' id='4' param='horz' type='layout-flow' w='87842' x='12158' y='7025'>
      <zone h='92975' id='2' type='layout-basic' w='77953' x='12158' y='7025'>
        <zone h='92975' id='1' name='RT4_stk_bar_grid' w='77953' x='12158' y='7025'>
        </zone>
      </zone>
      <zone fixed-size='170' h='92975' id='3' is-fixed='true' param='vert' type='layout-flow' w='9889' x='90111' y='7025'>
        <zone h='13739' id='6' name='RT4_stk_bar_grid' param='[mysql.40611.854150011575].[none:response:nk]' type='color' w='9889' x='90111' y='7025'>
        </zone>
      </zone>
    </zone>
    <zone h='7025' id='7' name='Q-RT4' w='87842' x='12158' y='0'>
    </zone>
    <zone h='100000' id='9' param='vert' type='layout-flow' w='12158' x='0' y='0'>
      <zone h='6818' id='5' name='RT4_stk_bar_grid' param='[mysql.40611.854150011575].[none:crosstab_group:nk]' type='filter' w='12158' x='0' y='0'>
      </zone>
      <zone h='31921' id='10' name='RT4_stk_bar_grid' param='[mysql.40611.854150011575].[none:question_base:nk]' type='filter' w='12158' x='0' y='6818'>
        </zone>
      </zone>
    </zones>
  </dashboard>
  <dashboard name="S2">
    <more tags>
  </dashboard>
</dashboards>

Вот рабочий процесс для моего прекрасного супового проекта.Я нахожу все элементы панели мониторинга и использую extract (), чтобы удалить все те, у которых нет «s1» в качестве значения для атрибута «name».Проблема, однако, в том, что кажется, что ВСЕ элементы приборной панели удаляются из окончательного супа перед записью.Я делаю что-то неправильно?Поверьте мне, что есть элемент панели мониторинга с именем = "S1".

#load the xml
workbook = open("C:\\Users\\rabdel.WINCMPT\\Documents\\Retail Footwear.twb")
soup = BeautifulStoneSoup(workbook, selfClosingTags=['repository-location', 'style'])
workbook.close()

#get all "dashboard" elements (children of "dashboards")
d = soup.findAll('dashboard')

#extract all but one
for child in d:
    if child.get("name", "").lower() != "s1":
        child.extract()

#write out the results
modified_workbook = open("C:\\Users\\rabdel.WINCMPT\\Documents\\Footwear.xml", "w")
modified_workbook.write(soup.prettify())
modified_workbook.close()

ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ: самое интересное, что если я записываю элемент панели мониторинга (родительский) в файлдо и после выписки я получаю ТОЧНО то, что ожидаю.Проблема в том, что сам суп кажется другим.

Ответы [ 2 ]

2 голосов
/ 20 июля 2011

Ваш код выглядит хорошо.Невозможно сказать, почему вы не получите ожидаемый результат, не увидев ваш XML-файл.

Возможно, вы захотите добавить строку отладки в ваш цикл, например,

for child in d:
    name = child.get('name', '').lower()
    print 'Name: "{0}"; Equal to "s1": {1}'.format(name, name == 's1')

... и убедитесь, что действительно - это тег с именем, которое вы ищете!

0 голосов
/ 21 июля 2011

похоже, это не проблема BeautifulSoup.Проблема заключается в том, что генерируемый XML не распознается приложением (Tabeleau) как действительный xml.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...