Question

Я попытался настроить SQL Server для индексации и поиска файлов MS Word и PDF, в соответствии с http://www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx

Но после настройки в SQL Server я обнаружил, что некоторые слова не могут быть найдены в SQL Server. Кажется, что есть проблема, в то время как SQL Server индексирует эти файлы.

Кто-нибудь испытывал то же самое раньше? Какие альтернативы можно использовать для индексирования и поиска контента в файлах MS Word и PDF?

BZ1 · Answer 1 · 25 апреля 2011

PDF использует как текстовые, так и двоичные данные. DOC, я думаю, полностью бинарный. DocX - это, по сути, заархивированный файл (следовательно, бинарный). Выполнение текстового поиска в этих форматах без надлежащего парсера может оказаться невозможным.

Почему поиск контента в MS Word и PDF с помощью SQL Server не точен?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему поиск контента в MS Word и PDF с помощью SQL Server не точен?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы