Question

У меня есть текстовый файл, из которого я пытаюсь создать панд DF

Name John Doe
Country Wakanda
Month of birth January 1900
social status married

....

После каждых 4 строк появляется новая запись, похожая на эту.Структура фрейма данных, который я пытаюсь создатьстрока для DF.

Есть ли лучший питонический подход, чтобы отделить имена столбцов от значений и извлечь только значения.

PS.Я не прошу код.Любое предложение о подходе было бы здорово.

yatu · Answer 1 · 30 ноября 2018

Возможно, подход может заключаться в том, чтобы иметь список потенциальных совпадений для каждой из записей, и для каждой записи повторять этот список и отбрасывать ключевые слова в случае совпадения.

В качестве примерадля отдельной записи:

text = 'Month of birth January 1900'
keys = ['Month of birth', 'Date of birth' 'Birth']

При поиске совпадений можно выбрать самую короткую строку из списка, что означает, что найдено больше слов:

min([text.strip(x) for x in keys])
'January 1900'

Вы просто следуете этому подходу для разных полей и строите фрейм данных из результирующих строк.Вы также можете рассмотреть возможность создания строк перед поиском по ключевым словам.Надеюсь, это поможет.

Обработка строк в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обработка строк в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов