Извлечь ценность из очищенной веб-страницы - PullRequest
0 голосов
/ 19 января 2012

Первая попытка использования Python, и после дня, проведенного в Google, мой старый мозг еще более озадачен.

Я использовал pycurl для регистрации через прокси-страницу ntlm и страницу очистки, а затем использовал Beautifulsoup для подтверждения результата.

Я хочу извлечь 3 значения из вывода prettify и сохранить их как переменные.Страница генерируется динамически, поэтому их местоположение на странице постоянно меняется.Эти 3 метки появляются на странице только один раз, и их расположение по сравнению с их соответствующими значениями является постоянным.

Как извлечь Value1, Value2 и Value3 из выходных данных предварительного преобразования и сохранить их как переменные.

Эти 3 oneliners - то, что мне нужно сделать в python.

grep -A 3 "Label1" prettify.txt |tail -n 1 | awk '{print $ 1}'

grep "Label2" prettify.txt |awk '{print $ 3}'

grep -B 4 "Label3" prettify.txt |awk '{print $ 1}' RS = [FS =] |tail -n 1

Извлечение 1

   <b>
    <font color="Red">
     Label1
    </font>
    <font color="blue">
     Value1
    </font>
   </b>
   <br />
   Label2: Value2
   <br />

Извлечение 2

    <li>
     <font color="green">
      [value3]
     </font>
     <font color="red">
      Label3
     </font>
    </li>

1 Ответ

0 голосов
/ 19 января 2012

Я делал несколько хакерских кодов до того, как свернул страницу, а затем использовал функцию поиска внутри кортежа, чтобы вырезать данные из остального содержимого.Например:

resultant_value = result[result.find(beginning_location):result.find(ending_location)]

переменные beginning_location и ending_location могут быть определенными уникальными индикаторами в начале и конце значения, так что оно отбрасывается и помещается в переменную resultant_value.Надеюсь, мой хакерский метод так или иначе поможет!

...