TIFF IFilter неправильно читает текст в столбце VARBINARY - PullRequest
2 голосов
/ 22 августа 2010

текст ссылки Я хочу использовать встроенный в Windows 2008 Server R2 TIFF IFilter с полнотекстовым поиском в SQL Server 2008 ... также R2.

Я установилОтфильтруйте через диспетчер сервера и обновите параметр «Принудительно использовать TIFF IFilter для выполнения OCR для каждой страницы в документе TIFF». Параметр локальной групповой политики в разделе «Конфигурация компьютера -> Административные шаблоны -> OCR» - «Включено».

У меня также естьсоздал полнотекстовый каталог и таблицу с именем «FileData», которая выглядит следующим образом:

CREATE TABLE [FileServer].[FileData](
 [FileDataId] [int] IDENTITY(1,1) NOT NULL,
 [FileGUID] [uniqueidentifier] ROWGUIDCOL  NOT NULL,
 [Data] [varbinary](max) FILESTREAM  NOT NULL,
 [Extension] [nvarchar](100) NULL,
 [Filename] [nvarchar](256) NULL,
 [Path] [nvarchar](256) NULL,
 CONSTRAINT [PK_FileData_FileDataId] PRIMARY KEY CLUSTERED 
(
 [FileDataId] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY] FILESTREAM_ON [FILES],
 CONSTRAINT [UX_File_FileGUID] UNIQUE NONCLUSTERED 
(
 [FileGUID] ASC
)WITH (PAD_INDEX  = OFF, STATISTICS_NORECOMPUTE  = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS  = ON, ALLOW_PAGE_LOCKS  = ON) ON [PRIMARY]
) ON [PRIMARY] FILESTREAM_ON [FILES]

GO

SET ANSI_PADDING OFF
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileGUID]  DEFAULT (newid()) FOR [FileGUID]
GO

ALTER TABLE [FileServer].[FileData] ADD  CONSTRAINT [DF_FileData_FileData]  DEFAULT (0x) FOR [Data]
GO

Когда я вставляю в эту таблицу файл, например PDF или слово DOC, я могу нажать ключевые слова в файленесколько мгновений спустя с полнотекстовым поиском:

Я сделал большой огромный файл TIFF с очень четким текстом (1024 x 768 ... около 12 слов) и импортировал THAT в таблицу FileData.Я могу найти в нем каждое слово.

SELECT [Path], [Filename], [Data]
FROM [FileServer].[FileData]
WHERE FREETEXT(*, 'Jason') and FREETEXT(Extension, 'tif');

Однако, когда я использую «настоящий» файл TIFF, например, таблицу данных от производителя, я получаю НУЛЬНЫЕ результаты при поиске по ключевым словам.Я понятия не имею, почему, и не так много проблем с устранением неполадок в Интернете с помощью SQL Server.

Я попытался сохранить файл .TIFF с различными видами сжатия, без сжатия и т. Д. ИМне просто не повезло.Текст в моем тестовом файле КРИСТАЛЛ ясен и все еще довольно большой.Я не могу себе представить, что проблема в чистоте файла, хотя я полагаю, что это возможно.

Чтобы у вас было что сравнить, я взял два следующих изображения и импортировал их:

ФАЙЛ РАБОЧЕГО ОБРАЗЦА ФАЙЛ НЕОБХОДИМОГО ОБРАЗЦА

Результаты для рабочего образца ДЕЙСТВИТЕЛЬНО хороши.Это ключевые слова из рабочей выборки в полнотекстовом индексе: $ 3.50 © 0004 08 1989 2010 21 21:35:42 235 282 3116 3702 40 48109 89 изобилуют абстрактными сопутствующими приобретенными акциями преимуществами алгоритмов агентства, алгоритмы которых уже составляютАмстердам анализировать анн появились приложения arbor arnficioj artficia1 назначение bv на основе базы данных бригада ведро строительство bv возможности тщательно изменяющиеся характеристики шашки классификатор закрытие закрытия когнитивное сравнение конкурирующие сложные сложности сложность компьютерная конфронтация путаница рассмотрите постоянно непрерывно непрерывно надуманные кредитные исцеления данные достойно определены определение дизайн разработан дизайнДискуссия Дискуссия Беспокойство во время эколого-экономических усилий Усилие elsevier КОНЕЦ ФАЙЛА инженерная среда среды err Даже пример событий Пример демонстрации опыта выраженные существующие расширения лица лица выполнимый запуск файла первый поток следующий формат Игра генерирует общие генетические целиldberg хорошо holiadd голландия однако гипотезы изображение есть Иммунное падающий неявно нечетко разведывательная информация интерес вмешивается введение нерелевантных JH JH журнал фунт большого фунта узнать обучение в широком масштабе сообщение ми Мичигана новых nn0004 nn08 nn1989 nn2010 nn21 продолжительности жизни долго машина млекопитающего млекопитающего млекопитающих в nn235 nn282 nn3116 nn3702 nn3d5 $ nn40 nn48109nn89 шумный север nos новинка новизна, которую можно получить часто один вариант действия изначально вне собственной бумаги разрешение на параллельный проходной режим разрешение на вечную игру проигрыватель может быть довольно проблематично обеспечить издателям возможность быстро случайно случайно реальное реальное подкрепление неоднократно переизданные требования обзоры сетчатки пересмотреть правила робота правила научные последовательности наборы значительнопростые, просто малые разреженные системы, системы, помеченные методами, теория, время, время tt2135, дважды искажает два, как правило, университет США, на нас, визуальный том, не удивительный мир

Но результаты Broken Samplмы просто ... ну, пусты.Ни одного слова из фактического изображения TIFF: 08 2010 21 21:49:22 Изображение формата файла КОНЕЦ ФАЙЛА nn08 nn2010 nn21 с тегом tiff tt2149

Если у кого-то есть какие-либо идеи о том, что попробовать дальше,Я ВСЕ уши.

Ответы [ 4 ]

1 голос
/ 04 сентября 2010

Руонг это правильно.Вы должны локализовать проблему.

Не все механизмы распознавания могут обрабатывать цветные изображения TIFF и предпочитают ч / б.Я предполагаю, что OCR Engine даже не обрабатывает вашу нерабочую страницу и просто выдает сообщение об ошибке, которое вы не видите.

  1. Как описано выше, попробуйте сохранить файл в виде черно-белого изображения TIFF.
  2. Сохраните файл в формате JPEG и попробуйте распознать изображение в формате JPEG.

Я пропустил ваше нерабочее изображение через OCR и смог правильно извлечь большую часть текста, поэтому разрешениене является серьезной проблемой.

1 голос
/ 06 сентября 2010

Ну, получается, что настоящей проблемой был РАЗМЕР изображения. OCR в ITFF IFilter просто не пытался его обработать ... слишком большой. Мне пришлось обнаружить это методом проб и ошибок, и я не смог найти никакой документации, указывающей максимальный размер / DPI входящего TIFF. Кто-нибудь знает эти спецификации? Эта статья, по-видимому, содержит некоторую информацию: support.microsoft.com/kb/837847 Но она специфична для Sharepoint, и у меня не было времени возиться с настройками, чтобы посмотреть, работает ли она. Кроме того, мне действительно нужно просто снять крышку размера. Идеи есть?

1 голос
/ 22 августа 2010

Попробуйте преобразовать нерабочее изображение в черно-белое и посмотрите, распознается ли больше слов.

Добавлена ​​

Попробуйте использовать IrfanView (или любой инструмент для работы с изображениями), чтобы установить DPI второго изображения равным 300. Затем повторите попытку.

Очевидно, что эти шаги по устранению неполадок не являются постоянными решениями, они просто помогают изолировать проблему.

0 голосов
/ 10 мая 2017

Нахожу что-то интересное

Я использую C # do

                    Image tiffFile = Image.FromFile(TiffPath);

                    resultFilePath = Path.Combine(tempFolder, Path.GetFileName(TiffPath));

                    tiffFile.Save(resultFilePath);

И используйте положить новый файл TIFF в базу данных, это работа, я не знаю почему, но решить мою проблему

...