Китайские символы преобразуются в квадраты при использовании APACHE POI для преобразования PPT в изображение - PullRequest
2 голосов
/ 22 апреля 2010

У меня возникла проблема при попытке использовать проект Apache POI для преобразования моего PPT в изображения. Мой код выглядит следующим образом:

FileInputStream is = new FileInputStream("test.ppt");

SlideShow ppt = new SlideShow(is);


is.close();

Dimension pgsize = ppt.getPageSize();

Slide[] slide = ppt.getSlides();

for (int i = 0; i < slide.length; i++) {

BufferedImage img = new BufferedImage(pgsize.width, pgsize.height,
BufferedImage.TYPE_INT_RGB);
Graphics2D graphics = img.createGraphics();
//clear the drawing area
graphics.setPaint(Color.white);
graphics.fill(new Rectangle2D.Float(0, 0, pgsize.width, pgsize.height));

//render
slide[i].draw(graphics);

//save the output
FileOutputStream out = new FileOutputStream("slide-" + (i+1) + ".png");
javax.imageio.ImageIO.write(img, "png", out);
out.close();

Работает нормально, за исключением того, что все китайские слова преобразованы в несколько квадратов. Тогда как я могу это исправить?

Ответы [ 3 ]

3 голосов
/ 24 апреля 2013

Кажется, это ошибка в Apache POI. Я добавил это в bugzilla

https://issues.apache.org/bugzilla/show_bug.cgi?id=54880

2 голосов
/ 21 декабря 2014

Проблема не в POI, а в настройке шрифта JVM.

Вам необходимо установить шрифт в списке шрифтов JVM (/usr/lib/jvm/jdk1.8.0_20/jre/lib/fonts или аналогичных), например simsun.ttc.

XSLFTextShape[] phs = slide[i].getPlaceholders();
for (XSLFTextShape ts : phs) {
  java.util.List<XSLFTextParagraph> tpl = ts.getTextParagraphs();
  for(XSLFTextParagraph tp: tpl) {
    java.util.List<XSLFTextRun> trs = tp.getTextRuns();
    for(XSLFTextRun tr: trs) {
      logger.info(tr.getFontFamily());
      tr.setFontFamily("SimSun");
    }
  }
}
1 голос
/ 22 апреля 2010

Проблема заключается в использовании FileOuputStream, который всегда будет записывать данные в файл в кодировке системы по умолчанию, которая, скорее всего, ISO-8859_1 для Windows. Китайские символы не поддерживаются этой кодировкой. Вам нужно создать поток, в который вы можете писать с использованием кодировки UTF-8, который требует создания ридера. Я смотрел на API, но не нашел никаких методов, принимающих читателя в качестве аргумента. Но проверьте, может ли ImageOutputStream вам помочь.

...