Я использую API Google AppIgine
from google.appengine.api import urlfetch
для загрузки веб-страницы. Результат
result = urlfetch.fetch("http://www.example.com/index.html")
- это строка содержимого html (в result.content). Проблема заключается в том, что данные, которые я хочу проанализировать, на самом деле не в форме HTML, поэтому я не думаю, что использование анализатора Python HTML будет работать для меня. Мне нужно проанализировать весь текст в теле HTML-документа. Единственная проблема заключается в том, что urlfetch возвращает одну строку всего HTML-документа, удаляя все новые строки и лишние пробелы.
EDIT:
Хорошо, я попытался получить другой URL, и, очевидно, urlfetch не удаляет символы новой строки, это была оригинальная веб-страница, которую я пытался проанализировать, которая показала HTML-файл таким образом ...
КОНЕЦ РЕДАКТИРОВАНИЯ
Если документ выглядит примерно так:
<html><head></head><body>
AAA 123 888 2008-10-30 ABC
BBB 987 332 2009-01-02 JSE
...
A4A 288 AAA
</body></html>
result.content будет таким после того, как urlfetch извлечет его:
'<html><head></head><body>AAA 123 888 2008-10-30 ABCBBB 987 2009-01-02 JSE...A4A 288 AAA</body></html>'
Использование анализатора HTML не поможет мне с данными между тегами body, поэтому я собирался использовать регулярные выражения для анализа моих данных, но, как вы можете видеть, последняя часть одной строки объединяется с первой частью следующая строка, и я не знаю, как ее разбить. Я пытался
result.content.split('\n')
и
result.content.split('\r')
но полученный список был всего лишь 1 элементом. В функции Google urlfetch не отображаются параметры, позволяющие не удалять переводы строк.
Есть идеи, как я могу проанализировать эти данные? Может быть, мне нужно получить его по-другому?
Заранее спасибо!