Я извлек текст из отсканированного PDF с помощью Tesseract.У меня есть выходная строка как-то так ..
Haemoglobin 13.5 14-16 g/dl
Random Blood Sugar 186 60 - 160 mg/dl
Random Urine Sugar Nil
¢ Blood Urea 43 14-40 mg/dl
4 — Serum Creatinine 2.13 0.4-1.5 mg/dl
Serum Uric Acid 4.9 3.4-7.0 mg/dl
Serum Sodium 142 135 - 150 meq/L
/ Serum Potassium 2.6 3.5-5.0 meq/L
Total Cholesterol] 146 110 - 160 mg/dl
Triglycerides 162 60 - 180 mg/d]
Теперь мне нужно передать это в dataframe или csv со всем текстом в одном столбце и значениями в другом, т.е..
**Haemoglobin** 13.5 14-16 g/dl
**Random Blood Sugar** 186 60 - 160 mg/dl
пока, лучшее, что я мог бы пройти через это что-то вроде этого ...
text = text.split('\n')
text = [x.split(' ') for x in text]
df = pd.DataFrame(text, columns['Header','Detail','a','e,','b','c','d','f'])
df
Header Detail a e b c d f
0 Haemoglobin 13.5 14-16 g/dl None None None None
1 Random Blood Sugar 186 60 - 160 mg/dl
2 Random Urine Sugar Nil None None None None
Пожалуйста, помогите !!