Как извлечь только текст из документа (это может быть PDF, Word или любой другой), используя Apache Тика? - PullRequest
0 голосов
/ 08 февраля 2019

Я пытаюсь извлечь только текст из файла PDF или Word, который может содержать изображения и другие вещи, а также с помощью Apache Тика. Как я могу получить только текст из них?Какие зависимости мне нужны в тике?Вот код Java, который я написал:

package secondp;

           import java.io.File;
           import org.apache.tika.Tika;

           import java.io.File;
           import java.io.FileInputStream;
           import java.io.IOException;

           import org.apache.tika.exception.TikaException;
           import org.apache.tika.metadata.Metadata;
           import org.apache.tika.parser.ParseContext;
           import org.apache.tika.parser.pdf.PDFParser;
           import org.apache.tika.sax.BodyContentHandler;
           import org.apache.tika.Tika;

           import org.xml.sax.SAXException;

           public class trial {
               public static void main(final String[] args) {
                   try {
                       System.out.println(trial.convert("test.pdf"));
                   } catch (final Exception e) {
                       e.printStackTrace();
                   }
               }

               public static String convert(final String fileName) throws IOException, SAXException, TikaException {
                   try(final FileInputStream inputstream = new FileInputStream(new File(fileName))) {
                       final BodyContentHandler handler = new BodyContentHandler();
                       new PDFParser().parse(inputstream, handler, new Metadata(), new ParseContext());
                       return handler.toString().trim();
                   }
               }
           }
...