Кавычки, запятые и скобки, лучший способ приблизиться к этому для полного кадра данных - PullRequest
0 голосов
/ 07 февраля 2020

Я получил несколько файлов для загрузки в фреймы данных и выполнения некоторого анализа. Текст по-прежнему мое слабое место, я всегда отклоняюсь от других типов данных. Текстовый файл содержит название нескольких лекарств и ярлык, указывающий, существуют ли они в определенной стране с таким названием или нет. (названия препаратов имеют разную номенклатуру в разных странах)

Текстовый файл представлен в следующем формате:

medicine_nomenclature, "availability"
{wellbutrin}, false
{daflon}, true
{modafinil}, true
{vigantol}, false
{vigantol, bioactive}, false

Если у вас есть какие-либо предложения или документация о том, что лучше всего подходит к нему было бы абсолютно здорово. Спасибо за потраченное время (и счастливых выходных)!

edit: размер файла примерно 109 КБ и около 3000 строк

1 Ответ

1 голос
/ 07 февраля 2020

Я не думаю, что 109KB займет много времени для удаления строк

from io import StringIO
import pandas as pd

removal = str.maketrans(dict.fromkeys(list('{}"')))

with open('drugs.csv') as drugs:
    pd.read_csv(StringIO(drugs.read().translate(removal)))

print(df)

  medicine_nomenclature  availability
0            wellbutrin         false
1                daflon          true
2             modafinil          true
3              vigantol         false

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...