У меня есть текстовый файл, который состоит из множества комбинаций паролей электронной почты, проблема в том, что он полон символов в начале или в середине.Все они могут быть заменены с помощью регулярных выражений, но моя проблема заключается в чтении TXT-файла и хранит все данные в 1 столбце.Разделитель или сентябрь нельзя использовать, поскольку каждая строка содержит так много разных символов.Даже значение по умолчанию «,» не является жизнеспособным, поскольку строки начинаются с «,», поэтому оно не будет содержать данных.
У меня уже есть скрипт, который может находить только электронные письма и удалять шумы с помощью панд и регулярных выражений, ноначальное чтение - моя проблема.Я слышал об использовании движка python над движком c, но из-за этого некоторые столбцы показывают NaN и помещают оставшуюся часть комбинированного прохода электронной почты в столбец 2.
with open(self.breach_file, 'r', encoding='utf-8') as breach_file:
found_reader = pd.read_csv(breach_file, names=['Email'], dtype={'Email':str}, quoting=csv.QUOTE_NONE, engine='c')
found_reader = pd.DataFrame(found_reader)
found_reader['Email'] = found_reader['Email'].replace(symbol_dictionary_colon, ':', regex=True).replace(symbol_dictionary_no_space, '', regex=True)
found_reader = found_reader.str.replace('?', '', regex=True).str.strip()
loaded_list = found_reader.str.replace(symbol_dictionary_first_char, '', regex=True)
breach_file.close()
Я просто хочу, чтобы данные быличитать в 1 столбце независимо от того, с какого символа начинается строка.Любая помощь?
PS Я пытался использовать 2 столбца, а затем, если столбец 1 NaN
, то создать новый столбец с объединенными столбцами 1 и 2, но это не обеспечивает выполнимого решения.