Прежде всего, я собираюсь объяснить всю проблему, и, если есть лучший способ сделать это без панд, пожалуйста, скажите. Я только что попробовал несколько способов, и я чувствую, что панды, вероятно, лучший путь.
У меня есть два текстовых файла. Каждый текстовый файл выглядит примерно так:
Sometextinbothfiles UniqueText SomeTextThatCouldbeCommon Unique Text
В UniqueText есть еще столбцы, но это дает общее представление о макете. Также есть некоторая информация заголовка, но ее легко удалить, игнорируя первые 22 строки в pandas. Столбец с SomeTextThatCouldbeCommon всегда находится в одном и том же месте, и именно это я и хочу посмотреть. Это имя файла.
В настоящее время я просто извлекаю каждый текстовый файл и разделяю их на панд, используя
Data = open("data.star", "r")
Datapd = pd.read_csv(Data, sep=r"\s+", skiprows=range(0,23), header=None)
Поэтому я хочу сравнить SomeTextThatCouldbeCommon в каждой строке текстового файла с тем же SomeTextThatCouldbeCommon в КАЖДОЙ строке другого текстового файла. Если есть совпадение, я хочу записать всю эту строку в новый массив данных / текстовый файл / массив. Затем я хочу сделать то же самое в обратном порядке. В итоге у меня есть два файла, которые ссылаются на одни и те же файлы, но в каждом файле есть уникальные данные об этих данных.
Надеюсь, я все объяснил. Пожалуйста, помогите мне изо всех сил, чтобы выяснить, как это сделать.