Чар с помощью символа Char от MS Word - PullRequest
0 голосов
/ 10 сентября 2011

в моей программе я должен читать символ за символом из pdf файла и помещать каждое слово в базу данных.Я сомневался, могу я это сделать или нет?затем я решил преобразовать файл pdf в файл MS WORD с помощью конвертера, а затем прочитать из этого файла.

Теперь я все еще не знаю, как я могу читать символ за символом из файла MS Word.Я использую C ++ / MFC в своей программе.

, если вы дадите мне пример кода, это очень поможет мне, и я буду очень благодарен.

Ответы [ 2 ]

0 голосов
/ 10 сентября 2011

Если вы можете преобразовать исходный файл и вам нужны только символы, то сделайте его простым текстовым файлом и прочитайте его, используя std::ifstream.

Чтобы получить более сложную информацию из файла MS Word,следует использовать Office Automation.В ответах на следующий вопрос есть хорошие ссылки:

Создание, открытие и печать файла слова из C ++

0 голосов
/ 10 сентября 2011

Проверьте IFilter.http://msdn.microsoft.com/en-us/library/ms691105%28v=vs.85%29.aspx

Это интерфейс COM для извлечения текста из файлов (каждое расширение имеет свою DLL, которую COM возвратил в соответствии с вашими потребностями).

Пример на C #: http://www.codeproject.com/KB/cs/IFilter.aspx, или http://www.codeproject.com/KB/string/pdf2text.aspx (я использовал его в нативном c ++, но у меня нет примера кода ...).

Обратите внимание, что для PDF вам может потребоваться отключить PDF IFilter:http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611

Удачи!

...