Question

У меня есть приложение, в которое должны быть загружены файлы .doc. Затем эти документы должны быть проиндексированы, и вся коллекция документов должна быть доступна для поиска. Это будет работать на Windows Server без установленного Word, с использованием IIS и SqlServer, но я бы не хотел быть привязанным к полнотекстовой индексации SqlServer.

Я думал о том, чтобы использовать Lucene.Net для индексирования, и мне было интересно, как лучше всего получить текст из файлов .doc. Я мог бы, вероятно, извлечь текст, читая весь поток, а затем используя regEx для извлечения любых обычных символов, но это кажется здоровенным и подверженным ошибкам.

Я видел статью об использовании iFilters, которая звучит многообещающе, но я подумал, что выложу это, поскольку я не знаком с этим.

P.S. Если это имеет значение, в этих файлах .doc будут присутствовать поля слияния, и в настоящее время нет другой альтернативы для формата .doc.

Jared · Answer 1 · 25 июля 2009

Что касается решения, для которого не требовалась внешняя программа, то похоже, что решение iFilter - это правильный путь (даже если вы считаете это внешней программой).

Вот простая статья CodePlex и код о том, как это можно сделать: http://www.codeproject.com/KB/cs/IFilter.aspx

Raffael Luthiger · Answer 2 · 19 июля 2009

В наших приложениях на основе PHP мы всегда использовали внешние программы, подобные этой: doc2txt . Затем мы взяли текст и сохранили его в базе данных. Если вы ищете в Google «doc2txt», вы найдете много разных программ, делающих одно и то же. Просто возьми тот, который тебе больше всего подходит.

Как индексировать и искать файлы .doc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как индексировать и искать файлы .doc

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы