Мои текстовые результаты scrpay продолжают возвращать "\ n \ n" - PullRequest
0 голосов
/ 22 марта 2019

Я пытаюсь очистить некоторые результаты поиска от

https://www.companiesintheuk.co.uk/Company/Find?q=a

С помощью команд

response.css('div.search_result_title').extract()

Что работает, но, как я пытаюсь удалить теги HTML с

response.css('div.search_result_title::text').extract()

Но я продолжаю получать, \ n \ n \ n \ n \ n \ n \ n

[u '\ n', u '\ n (распущен) \ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n' , u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n', u '\ n ', u' \ n ', u' \ n ', u' \ n ', u' \ n ', u' \ n ', u' \ n ']

Ребята, вы знаете, почему? Спасибо!

1 Ответ

0 голосов
/ 22 марта 2019

Хотите получить текст заголовков? У вас a внутри div, так что да, вы получаете много пустых данных. Используйте div.search_result_title a::text.

И для второго вопроса о том, чтобы получить весь текст блока:

for i in response.css('div.searchResult'): 
    print ' '.join([j.strip() for j in i.css('::text').extract() if j.strip()])
...