Есть ли способ, с помощью которого я могу получить отдельный вывод из вывода tsv PDF-файла, который создается с помощью Tesseract двигателя OCR? - PullRequest
0 голосов
/ 19 февраля 2019

Таким образом, моя цель состоит в том, чтобы получить выходные данные в структурированном табличном формате из данного файла .csv, у меня есть несколько подходов, чтобы сделать то, что я хотел, если бы я мог какие-то новые подходы в этом, таким образом, не давая свое представление о подходе, чтобыникто не запутался.

Моя цель - получить табличный вывод только 5-го и 6-го столбца в файле изображения PDF.

Я написал несколько фильтров, которые мне нужны после этих фильтровтолько я хочу, чтобы мой код работал.

import pandas as pd
import numpy as np

df = pd.read_csv('form_2.tsv',delimiter='\t')

df = df.loc[df['level'] == 5]
df = df.loc[df['block_num'] == 34] 
df = df.dropna(subset=['text'])
df = df[df['text'].notnull()]

Это мой файл .csv.

level   page_num    block_num   par_num line_num    word_num    left    top width   height  conf    text    
5   1   34  1   1   1   12  77  4   8   23  [i  
5   1   34  1   1   2   23  77  20  9   35  Part    
5   1   34  1   1   3   46  78  38  8   62  Number  
5   1   34  1   1   4   158 78  8   8   47  i.  
5   1   34  1   1   5   169 78  19  8   74  Part    
5   1   34  1   1   6   192 78  26  8   81  Name    
5   1   34  1   1   7   346 78  39  8   0   [Soria  
5   1   34  1   1   8   387 78  39  8   3   Number  
5   1   34  1   1   9   533 78  6   8   54  JE  
5   1   34  1   1   10  539 78  58  10  0   FATReport   
5   1   34  1   2   1   533 92  38  8   0   Number  
5   1   34  1   3   1   14  103 58  9   27  1211653-999 
5   1   34  1   3   2   159 104 23  8   70  stem,   
5   1   34  1   3   3   188 104 21  8   62  Paw 
5   1   34  1   3   4   216 104 24  8   42  (P14)   
5   1   34  1   3   5   346 104 16  8   57  IN  
5   1   34  1   3   6   532 104 32  8   10  lesea21 
5   1   34  1   4   1   14  117 8   8   39  IS. 
5   1   34  1   4   2   25  117 35  8   45  Matorial    
5   1   34  1   4   3   61  117 16  8   84  or  
5   1   34  1   4   4   79  117 39  8   52  Process:    
5   1   34  1   4   5   160 118 4   7   72  6   
5   1   34  1   4   6   170 117 62  10  80  Specification   
5   1   34  1   4   7   252 118 5   7   73  7   
5   1   34  1   4   8   263 117 25  8   79  Code    
5   1   34  1   4   9   346 118 5   7   75  a.  
5   1   34  1   4   10  357 117 35  10  13  Speciar 
5   1   34  1   4   11  439 118 7   7   64  [a  
5   1   34  1   4   12  450 118 48  8   48  Customer    
5   1   34  1   4   13  533 118 12  8   17  —|10. 
5   1   34  1   4   14  549 118 48  8   31  Coriicate   
5   1   34  1   4   15  600 118 11  8   59  oF  
5   1   34  1   5   1   14  130 28  8   40  |Wame   
5   1   34  1   5   2   159 130 39  8   14  INumber 
5   1   34  1   5   3   345 130 39  8   39  lProcess    
5   1   34  1   5   4   438 131 44  9   26  |Approvat   
5   1   34  1   5   5   532 131 64  8   42  (Conformance    
5   1   34  1   6   1   345 143 41  10  0   [Supplier   
5   1   34  1   6   2   389 143 24  9   49  Code    
5   1   34  1   6   3   439 144 54  8   44  |Veriication    
5   1   34  1   6   4   0   0   641 781 0   |   
5   1   34  1   6   5   531 144 38  8   0   Number  
5   1   34  1   7   1   438 156 58  10  0   |rvesâ„¢amma)   
5   1   34  1   8   1   354 175 21  8   0   Soap    
5   1   34  1   8   2   376 175 49  7   41  oman    
5   1   34  1   9   1   52  190 17  6   52  See 
5   1   34  1   9   2   72  190 12  6   45  Bar 
5   1   34  1   9   3   87  190 17  8   45  Type    
5   1   34  1   9   4   107 190 8   6   56  0   
5   1   34  1   9   5   194 191 10  6   25  1M  
5   1   34  1   9   6   207 191 18  6   15  as82    
5   1   34  1   9   7   291 191 13  6   71  NA  
5   1   34  1   9   8   353 186 32  7   0   (Suspie 
5   1   34  1   9   9   387 186 21  6   50  nae,    
5   1   34  1   9   10  413 186 13  6   50  Fut 
5   1   34  1   9   11  476 191 13  6   61  Na  
5   1   34  1   9   12  540 191 23  6   10  Heat    
5   1   34  1   10  1   116 190 4   7   0   *   
5   1   34  1   10  2   182 190 11  7   63  a   
5   1   34  1   10  3   351 196 29  6   0   Sactee  
5   1   34  1   10  4   383 196 13  6   26  and 
5   1   34  1   10  5   398 196 29  8   0   Soper   
5   1   34  1   10  6   565 198 45  1   27  ——  
5   1   34  1   11  1   353 220 72  7   0   ‘Sipiermiematon   
5   1   34  1   12  1   26  233 17  7   75  Note    
5   1   34  1   12  2   0   0   641 781 57  6   
5   1   34  1   12  3   55  234 32  7   32  Mapres  
5   1   34  1   12  4   90  234 30  6   58  Pare    
5   1   34  1   12  5   121 235 23  6   34  pect,   
5   1   34  1   12  6   190 234 39  7   22  means   
5   1   34  1   12  7   291 235 12  6   49  wa  
5   1   34  1   12  8   353 230 31  8   0   {sipeie 
5   1   34  1   12  9   387 230 21  6   61  Na  
5   1   34  1   12  10  413 230 12  6   35  Fok 
5   1   34  1   12  11  475 235 14  6   53  Yee 
5   1   34  1   12  12  538 235 22  6   52  cme.    
5   1   34  1   13  1   46  233 5   7   0   ®  
5   1   34  1   13  2   178 234 30  7   28  ASIN    
5   1   34  1   13  3   351 240 29  6   39  Soiree  
5   1   34  1   13  4   383 240 12  6   57  and 
5   1   34  1   13  5   398 240 29  8   15  Spier   
5   1   34  1   14  1   378 250 21  8   18  ‘cae  
5   1   34  1   15  1   353 266 71  7   0   “Sipeerreometon   
5   1   34  1   16  1   52  279 16  6   65  Note    
5   1   34  1   16  2   71  279 4   6   66  7   
5   1   34  1   16  3   80  279 16  6   72  Heat    
5   1   34  1   16  4   99  279 18  6   52  Tet 
5   1   34  1   16  5   181 280 46  7   0   pusi487s    
5   1   34  1   16  6   290 281 13  6   68  Na  
5   1   34  1   16  7   352 276 29  7   3   (Supper 
5   1   34  1   16  8   382 276 26  6   31  Nae 
5   1   34  1   16  9   413 276 12  6   68  Fall    
5   1   34  1   16  10  475 281 9   6   73  va  
5   1   34  1   16  11  538 281 22  6   77  cate    
5   1   34  1   17  1   207 280 11  7   33  wr  
5   1   34  1   17  2   350 286 29  6   0   Aeties  
5   1   34  1   17  3   382 286 13  6   47  nd  
5   1   34  1   17  4   398 286 28  8   29  Soper   
5   1   34  1   18  1   378 296 21  7   37  one)    
5   1   34  1   19  1   353 312 71  7   0   Suiperwiomaion  
5   1   34  1   20  1   42  325 16  6   72  Net 
5   1   34  1   20  2   61  325 4   6   32  9   
5   1   34  1   20  3   70  325 34  7   0   Present 
5   1   34  1   20  4   117 326 8   6   56  ot  
5   1   34  1   20  5   188 326 31  6   23  pecans  
5   1   34  1   20  6   290 327 13  6   71  Na  
5   1   34  1   20  7   352 322 22  7   16  (Supe   
5   1   34  1   20  8   375 322 32  6   62  Nae,    
5   1   34  1   20  9   412 322 12  6   62  Ful 
5   1   34  1   20  10  474 327 14  6   60  Yee 
5   1   34  1   20  11  554 326 5   6   0   *   
5   1   34  1   21  1   105 325 10  7   55  ne  
5   1   34  1   21  2   350 332 29  6   39  ‘acess    
5   1   34  1   21  3   382 332 12  6   52  on  
5   1   34  1   21  4   397 332 29  7   5   Supple  
5   1   34  1   21  5   537 326 15  7   53  cea 
5   1   34  1   22  1   377 342 21  7   26  cue)    
5   1   34  1   23  1   14  441 13  7   25  1   
5   1   34  1   23  2   31  441 51  7   86  Functional  
5   1   34  1   23  3   86  441 20  7   86  Test    
5   1   34  1   23  4   161 441 10  7   55  72  
5   1   34  1   23  5   176 441 57  9   44  Aecepiance  
5   1   34  1   23  6   235 442 30  9   76  repart  
5   1   34  1   23  7   267 441 38  9   64  number, 
5   1   34  1   23  8   308 441 57  10  47  applicable  
5   1   34  1   24  1   14  453 50  8   5   IProcedure  
5   1   34  1   24  2   67  453 39  8   78  Number  
5   1   34  1   25  1   14  498 16  7   41  aN  
5   1   34  1   25  2   160 498 16  7   70  INA 
5   1   34  1   26  1   16  581 10  8   62  13  
5   1   34  1   26  2   32  581 51  8   79  comments    
5   1   34  1   26  3   86  582 16  7   84  NiA 
5   1   34  1   27  1   42  604 32  10  84  repared 
5   1   34  1   27  2   78  604 12  10  59  By  
5   1   34  1   27  3   159 604 33  8   47  Pirnted 
5   1   34  1   27  4   196 604 27  8   96  Name    
5   1   34  1   27  5   226 604 17  7   95  and 
5   1   34  1   27  6   247 604 45  9   90  Signature   
5   1   34  1   27  7   343 604 10  7   63  15  
5   1   34  1   27  8   360 604 21  7   92  Date    
5   1   34  1   27  9   506 605 39  7   29  2rer2019    

Файл PDF, преобразованный в ИЗОБРАЖЕНИЕ :

enter image description here

Может ли кто-нибудь помочь с любым подходом или идеей?

...