Я пытаюсь вычистить данные из PDF-файлов Google Covid-19 Mobility и, в частности, вычистить данные из диаграмм для каждого округа. Я нашел кого-то, кто написал что-то , что почти там, но не совсем идеально. Если в pdf есть график, имеющий только одну точку (например, посмотрите на категорию «Парки» для округа Франклин на страница 5 ), все графики на этой странице будут пропущены. Такая точка не возвращается как объект XObject при использовании getPageXObjectList()
, и, следовательно, вы не можете знать, какой из возвращенных объектов XObject go с каким округом / категорией.
Я посмотрел на вывод _getXrefString()
, и я почти уверен, что Xref равно 127 для ссылки на pdf, но я не могу понять, как добраться, где на странице размещены точки , Кажется, есть getPageXObjectList()
и getPageText()
, но должен быть третий метод, например getPageBasicObjects()
или что-то в этом роде. Буду признателен за любую помощь в том, как выяснить, где расположены основные фигуры c. Единственное, что я не могу понять, как индексировать, это эти точки и серая ось / галочки на графиках.