Есть ли программа окна, которая может преобразовать слово (.doc и .docx) в текст - PullRequest
0 голосов
/ 01 марта 2010

Мне нужна оконная программа для преобразования файла слова (.doc) в текст. Что-то вроде «anitiword» для windows.

Мне это нужно, потому что мне нужно преобразовать файл слов в текст и использовать Lucence для индексирования, и я нахожусь в среде Windows: (

Спасибо за вашу помощь !!!

Ответы [ 4 ]

1 голос
/ 01 марта 2010

Да. Эта программа называется MS Word.

Откройте файл в Word через COM и сохраните его как текст программным способом. С другой стороны, разве Lucene не может читать документы Word изначально?

0 голосов
/ 01 марта 2010

Вы можете использовать OpenXML SDK , чтобы легко вырезать текст из файлов DOCX. Однако не работает с .doc - для этого вам, вероятно, нужно использовать MS Word и COM.

0 голосов
/ 01 марта 2010

Используя POI (http://poi.apache.org/), вы сможете индексировать старые двоичные форматы DOC. Соответствующие фрагменты кода можно найти в http://kalanir.blogspot.com/2008/08/how-to-index-microsoft-format-documents.html.

А для DOCX, поскольку это, по сути, ZIP-файл, который содержит несколько файлов XML и файлов ресурсов, будет относительно легко найти XML-файл, содержащий фактический текст (я думаю, что это word / document.xml) и проиндексировать содержащийся в нем текст (после удаления всех данных XML) ...

0 голосов
/ 01 марта 2010

если вам действительно нужна программа, вот one . Не пробовал, но вы можете дать ему шанс. В противном случае вы можете просто использовать COM / vbscript .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...