У меня есть файл корпуса, который содержит данные в следующем формате:
Hi. bonjour. CC-BY 2.0 (France) Attribution: tatoeba.org #538123 (CM) & #629296 (Samer)
black! noir! CC-BY 2.0 (France) Attribution: tatoeba.org #906328 (papabear) & #1245450 (saeb)
По существу разделен на три поля с помощью \ teg:
Hi \ t bonjour \ t CC -BY 2.0 (Франция) Атрибуция: tatoeba.org # 538123 (CM) & # 629296 (Samer)
Я пытаюсь чтобы получить только ключ: значение:
Hi. bonjour.
black! noir!
и избегать всего, что будет дальше. Так я делал до того, как дополнительные метаданные были добавлены после ключа: значение:
def load_doc(filename):
with codecs.open(filename, "r+", "utf-8") as file:
file = file.read()
return file
def to_pairs(doc):
lines = doc.strip().split('\n')
pairs = [line.split('\t') for line in lines]
return pairs
pairs = to_pairs(load_doc(filename))
Спасибо за помощь!