Извлечь медиафайл (изображение, mp3, wav) с помощью библиотеки Sol rNet - PullRequest
0 голосов
/ 05 мая 2020

Я пытаюсь извлечь содержимое из мультимедийных файлов, таких как изображение, mp3, wav, которое мне нужно опубликовать в Solr.

например,

  1. Я хочу извлечь текст из изображения файл.
  2. Я хочу извлечь текст из mp3
  3. Точно так же я хочу извлечь голосовые данные как текст из файла wav.

Я пробовал код ниже, но содержимое пустые или нулевые.

    Startup.Init<IndexDocument>(ConfigurationManager.AppSettings["BaseUrl"]);

            var solr = ServiceLocator.Current.GetInstance<ISolrOperations<IndexDocument>>();
            string content = string.Empty;
            int index = 15706;

            using (FileStream fileStream = File.OpenRead(@"D:\Source\Content\Dont worry be Happy.mp3"))
            {
                var response =
                    solr.Extract(
                        new ExtractParameters(fileStream, "Dont worry be Happy")
                        {
                            ExtractFormat = ExtractFormat.Text,
                            ExtractOnly = true
                        });
                content = response.Content;
            }
            solr.Add(new IndexDocument()
            {
                Id = index.ToString(),
                DocId = "Dont worry be Happy",
                Title = "Dont worry be Happy",
                Text = content
            });
            solr.Commit();


Подскажите, пожалуйста, как использовать библиотеку Solr или Apache tika in. net для извлечения текстового содержимого.

Спасибо.

...