Как найти / проиндексировать / найти основные c фигуры (не xobjects или текст) в pdf с pymupdf? - PullRequest
0 голосов
/ 14 апреля 2020

Я пытаюсь вычистить данные из PDF-файлов Google Covid-19 Mobility и, в частности, вычистить данные из диаграмм для каждого округа. Я нашел кого-то, кто написал что-то , что почти там, но не совсем идеально. Если в pdf есть график, имеющий только одну точку (например, посмотрите на категорию «Парки» для округа Франклин на страница 5 ), все графики на этой странице будут пропущены. Такая точка не возвращается как объект XObject при использовании getPageXObjectList(), и, следовательно, вы не можете знать, какой из возвращенных объектов XObject go с каким округом / категорией.

Я посмотрел на вывод _getXrefString(), и я почти уверен, что Xref равно 127 для ссылки на pdf, но я не могу понять, как добраться, где на странице размещены точки , Кажется, есть getPageXObjectList() и getPageText(), но должен быть третий метод, например getPageBasicObjects() или что-то в этом роде. Буду признателен за любую помощь в том, как выяснить, где расположены основные фигуры c. Единственное, что я не могу понять, как индексировать, это эти точки и серая ось / галочки на графиках.

...