Как я могу разобрать часть html внутри документа docx, используя Java? - PullRequest
1 голос
/ 28 января 2020

История немного сложна, но сводится к следующему:

Текущий рабочий код не может правильно распечатать документ в docx - он игнорирует таблицы, вместо этого он в настоящее время записывает каждую новую ячейку как новый абзац.

Я могу получить доступ к результирующему файлу * .docx, прежде чем отправить его пользователю и изменить его. Это всего лишь один крючок, который у меня есть.

Мне удалось вставить html вместо содержимого, содержащего мою таблицу внутри документа: pi c. Html внутри документа

Этот html код в значительной степени представляет собой одну строку. Пример содержит только одну таблицу, но может быть несколько таблиц, разделенных текстовыми абзацами различного форматирования, горизонтальные правила <hr>.

Какие у меня варианты? Любые библиотеки, чтобы посмотреть?

пс. Html код из документа:

<table cellpadding="0" cellspacing="0" border="1" width="100%">
  <tbody><tr>
    <td height="20"><font size="4">n/a</font></td>
    <td height="20"><font size="4">Column1</font></td>
    <td height="20"><font size="4">Column2</font></td>
    <td height="20"><font size="4">Column3</font></td>
  </tr><tr>
    <td height="20"><font size="4">Row1</font></td>
    <td height="20"><font size="4">Text123</font></td>
    <td height="20">Text123 </td><td height="20">Text123 </td>
  </tr><tr>
    <td height="20"><font size="4">Row2</font></td>
    <td height="20"><span style="font-size: large;">Text123</span></td>
    <td height="20">Text123 </td>
    <td height="20"><span style="font-size: large;">Text123</span></td>
  </tr></tbody>
</table>
...