Я пытаюсь преобразовать большое количество (100 000) файлов Word DOC, они довольно старые.Примерно с 1995 по 2000 год версия Word, я полагаю.Я продолжаю ходить кругами из того, что я вижу здесь в переполнении стека и документации MS.
Что я хочу сделать, так это просто прочитать файл, вставить текст в строку, разобрать строку, извлечь структурные элементы (файл на самом деле является структурированным отчетом, похожим на Patient: Jon Doe).На данный момент я знаю, что я делаю.Я могу разобрать строковые данные, вставить их в полезные переменные, а затем вставить эти данные в базу данных.Но я не знаю, как на самом деле поместить текст в строку.Любая помощь?
PPS я нашел эта ссылка , которая предположительно помещает файл DOC в текстовый файл.Это начало, но я бы предпочел не делать кучу манипуляций с файлами.