PDF извлекает координаты и создает вложенные файлы XML - PullRequest
0 голосов
/ 26 февраля 2019

Я пытаюсь извлечь все слова (куски) / символы с координатами из текстового счета-фактуры / оператора PDF с возможностью поиска с помощью iTextSharp с помощью программы на C #, после получения координаты создать файл XML, а затем прочитать файл XML и представить данные в DataGridView.,Я пробовал некоторые методы, такие как iTestSharp. iTextSharp извлекает каждый символ и getRectangle любой может предложить метод для создания файла XML в следующем формате XML:

<PDFExtract>
<PageLayout>Style</PageLayout>
<Page>
    <Zone>
        <Line>
        <LOCX>298</LOCX>
        <LOCY>199</LOCY>
        <LOCW>1859</LOCW>
        <LOCH>138</LOCH>
            <WD>
            <LOCX>298</LOCX>
            <LOCY>199</LOCY>
            <LOCW>139</LOCW>
            <LOCH>69</LOCH>
            <T>Start</T>
            </WD>
            <WD>
            <LOCX>476</LOCX>
            <LOCY>216</LOCY>
            <LOCW>63</LOCW>
            <LOCH>55</LOCH>
            <T>Bucks</T>
            </WD>
    </Zone>
</Page>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...