в настоящее время я работаю с scrapy , которая представляет собой веб-среду для сканирования на основе python. Данные извлекаются из HTML с помощью XPATH . (Я новичок в Python) Чтобы обернуть данные, Scrap использует элементы, например,
item = MyItem()
item['id'] = obj.select('div[@class="id"]').extract()
Когда идентификатор печатается как print item['id']
, я получаю следующий вывод
[u'12346']
Моя проблема в том, что эти выходные данные не всегда имеют одинаковую форму. Иногда я получаю вывод вроде
"[u""someText""]"
Это происходит только с текстом, но на самом деле в тексте нет ничего особенного по сравнению с другим текстом, который обрабатывается корректно, как идентификатор.
Кто-нибудь знает, что означают кавычки? Как я уже сказал, текст someText был просканирован, как и все другие текстовые данные, например, от
<a>someText</a>
Есть идеи?
Edit:
Мой паук сканирует все страницы блога. Вот точный вывод
[u'41039'];[u'title]
[u'40942'];"[u""title""]"]
...
Извлечено с помощью
item['title'] = site.select('div[@class="header"]/h2/a/@title').extract()
Я заметил, что всегда одни и те же сообщения в блоге имеют эти кавычки. Таким образом, они не появляются случайно. Но в тексте нет ничего особенного. Например. этот заголовок производит кавычки
<a title="Xtra Pac Telekom web'n'walk Stick Basic für 9,95" href="someURL">
Xtra Pac Telekom web'n'walk Stick Basic für 9,95</a>
Итак, моя первая мысль была о том, что это из-за некоторых специальных символов, но их нет.
Это происходит только тогда, когда элементы записываются в CSV, когда я печатаю их в cmd, кавычки отсутствуют.
Есть идеи?