Почему поиск контента в MS Word и PDF с помощью SQL Server не точен? - PullRequest
1 голос
/ 24 апреля 2011

Я попытался настроить SQL Server для индексации и поиска файлов MS Word и PDF, в соответствии с http://www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx

Но после настройки в SQL Server я обнаружил, что некоторые слова не могут быть найдены в SQL Server. Кажется, что есть проблема, в то время как SQL Server индексирует эти файлы.

Кто-нибудь испытывал то же самое раньше? Какие альтернативы можно использовать для индексирования и поиска контента в файлах MS Word и PDF?

1 Ответ

1 голос
/ 25 апреля 2011

PDF использует как текстовые, так и двоичные данные. DOC, я думаю, полностью бинарный. DocX - это, по сути, заархивированный файл (следовательно, бинарный). Выполнение текстового поиска в этих форматах без надлежащего парсера может оказаться невозможным.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...