текст ссылки Я хочу использовать встроенный в Windows 2008 Server R2 TIFF IFilter с полнотекстовым поиском в SQL Server 2008 ... также R2.
Я установилОтфильтруйте через диспетчер сервера и обновите параметр «Принудительно использовать TIFF IFilter для выполнения OCR для каждой страницы в документе TIFF». Параметр локальной групповой политики в разделе «Конфигурация компьютера -> Административные шаблоны -> OCR» - «Включено».
У меня также естьсоздал полнотекстовый каталог и таблицу с именем «FileData», которая выглядит следующим образом:
CREATE TABLE [FileServer].[FileData](
[FileDataId] [int] IDENTITY(1,1) NOT NULL,
[FileGUID] [uniqueidentifier] ROWGUIDCOL NOT NULL,
[Data] [varbinary](max) FILESTREAM NOT NULL,
[Extension] [nvarchar](100) NULL,
[Filename] [nvarchar](256) NULL,
[Path] [nvarchar](256) NULL,
CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED
(
[FileDataId] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED
(
[FileGUID] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]
GO
SET ANSI_PADDING OFF
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileGUID] DEFAULT (newid()) FOR [FileGUID]
GO
ALTER TABLE [FileServer].[FileData] ADD CONSTRAINT [DF_FileData_FileData] DEFAULT (0x) FOR [Data]
GO
Когда я вставляю в эту таблицу файл, например PDF или слово DOC, я могу нажать ключевые слова в файленесколько мгновений спустя с полнотекстовым поиском:
Я сделал большой огромный файл TIFF с очень четким текстом (1024 x 768 ... около 12 слов) и импортировал THAT в таблицу FileData.Я могу найти в нем каждое слово.
SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');
Однако, когда я использую «настоящий» файл TIFF, например, таблицу данных от производителя, я получаю НУЛЬНЫЕ результаты при поиске по ключевым словам.Я понятия не имею, почему, и не так много проблем с устранением неполадок в Интернете с помощью SQL Server.
Я попытался сохранить файл .TIFF с различными видами сжатия, без сжатия и т. Д. ИМне просто не повезло.Текст в моем тестовом файле КРИСТАЛЛ ясен и все еще довольно большой.Я не могу себе представить, что проблема в чистоте файла, хотя я полагаю, что это возможно.
Чтобы у вас было что сравнить, я взял два следующих изображения и импортировал их:
ФАЙЛ РАБОЧЕГО ОБРАЗЦА ФАЙЛ НЕОБХОДИМОГО ОБРАЗЦА
Результаты для рабочего образца ДЕЙСТВИТЕЛЬНО хороши.Это ключевые слова из рабочей выборки в полнотекстовом индексе: $ 3.50 © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 изобилуют абстрактными сопутствующими приобретенными акциями преимуществами алгоритмов агентства, алгоритмы которых уже составляютАмстердам анализировать анн появились приложения arbor arnficioj artficia1 назначение bv на основе базы данных бригада ведро строительство bv возможности тщательно изменяющиеся характеристики шашки классификатор закрытие закрытия когнитивное сравнение конкурирующие сложные сложности сложность компьютерная конфронтация путаница рассмотрите постоянно непрерывно непрерывно надуманные кредитные исцеления данные достойно определены определение дизайн разработан дизайнДискуссия Дискуссия Беспокойство во время эколого-экономических усилий Усилие elsevier КОНЕЦ ФАЙЛА инженерная среда среды err Даже пример событий Пример демонстрации опыта выраженные существующие расширения лица лица выполнимый запуск файла первый поток следующий формат Игра генерирует общие генетические целиldberg хорошо holiadd голландия однако гипотезы изображение есть Иммунное падающий неявно нечетко разведывательная информация интерес вмешивается введение нерелевантных JH JH журнал фунт большого фунта узнать обучение в широком масштабе сообщение ми Мичигана новых nn0004 nn08 nn1989 nn2010 nn21 продолжительности жизни долго машина млекопитающего млекопитающего млекопитающих в nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109nn89 шумный север nos новинка новизна, которую можно получить часто один вариант действия изначально вне собственной бумаги разрешение на параллельный проходной режим разрешение на вечную игру проигрыватель может быть довольно проблематично обеспечить издателям возможность быстро случайно случайно реальное реальное подкрепление неоднократно переизданные требования обзоры сетчатки пересмотреть правила робота правила научные последовательности наборы значительнопростые, просто малые разреженные системы, системы, помеченные методами, теория, время, время tt2135, дважды искажает два, как правило, университет США, на нас, визуальный том, не удивительный мир
Но результаты Broken Samplмы просто ... ну, пусты.Ни одного слова из фактического изображения TIFF: 08 2010 21 21:49:22 Изображение формата файла КОНЕЦ ФАЙЛА nn08 nn2010 nn21 с тегом tiff tt2149
Если у кого-то есть какие-либо идеи о том, что попробовать дальше,Я ВСЕ уши.