Это запрещено robots.txt (https://mail.ru/robots.txt). Если вы все еще хотите очистить его, вам нужно установить ROBOTSTXT_OBEY в False. Вы можете включить это следующим образом:
custom_settings = {
'ROBOTSTXT_OBEY': False,
}
Кроме того, xpath не дает никаких результатов - возможно, потому что контент загружается динамически. Вы можете проверить с помощью scrapy shell, как выглядит html-страница, которую выглядит как scrap: scrapy shell -s ROBOTSTXT_OBEY=False "http://mail.ru/"
.
Xpath, получающий заголовки, может быть построен следующим образом: //*[@id="news:main:list"]//*[@class="news__list__item__link__text"]/text()
.