Безопасные дублеты с Selenium в .txt.File - PullRequest
0 голосов
/ 03 апреля 2020

Итак, моя цель состояла в том, чтобы написать сценарий, который очищает пользователей, который использует определенный хэштег c в Instagram и записывает их учетные записи в .txt-файл, и это в основном работает!

Моя проблема в том, что, хотя некоторые учетные записи публикуют множественные изображения, мой сценарий показывает каждое имя только один раз. Любая идея, как это может быть в состоянии посчитать их или заставить мой скрипт не удалять дублеты?

Я искал все, но не могу найти решение.

Это моя часть написания кода:

def generate_initial_information_txt(initial_information):
    initial_information_txt = open("initial_information", "w+")
    for user in initial_information:
        initial_information_txt.write(user + "\n")

Это часть, чтобы найти имя:

for user in range(30):
            el = self.driver.find_element_by_xpath('/html/body/div[4]/div[2]/div/article/header/div[2]/div[1]/div[1]')
            el = el.find_element_by_tag_name('a')
            time.sleep(2)
            profile = el.get_attribute('href')
            open_recent_posts_set.add(profile)
            time.sleep(2)
            next_button = self.driver.find_element_by_xpath('/html/body/div[4]/div[1]/div/div/a[2]')
            next_button.click()
            time.sleep(2)

URL-адрес будет https://instagram.com/explore/tags/hansaviertel_ms

Так что я начинаю чистить "Недавние" сообщения и, например, "Hansaforum", опубликованные как 5 из первых 6. Если я введите диапазон 6, он просто выбрасывает .txt-файл с двумя учетными записями, а не в 5 раз больше, чем "Hansaforum". И я хотел бы получить количество раз любым способом. -

Спасибо :)

...