Во-первых, я использую Python, а также Selenium и немного BeautifulSoup для веб-скрепинга. Может быть, они не могут работать вместе, но эту конкретную проблему мне пока не удалось решить. Я не верю, что это выше человеческого ума, но это не в моих усилиях. на немного больше. В основном тег 'body' довольно большой и содержит этот 'третий маленький' и другие подобные элементы.
Моя проблема, на первый взгляд, проста: я хочу просто получить это «январь 2020» отдельно от тега body. Но я не смог этого сделать. Если я использую «gettext» от BeautifulSoup, я получу весь остальной текст (например, «Перетащите сюда файл для вложения») без очевидного способа разделения. Да, есть некоторые новые строки, но есть и те, что в тексте выше, так что я не думаю, что это был бы безопасный способ. Я также использовал 'find_all' из BeautifulSoup, но он просто возвращает мне все содержащиеся теги, которые не включают в себя текст.
Есть ли способ? Я также безуспешно пытался использовать методы Selenium.