Я пытаюсь извлечь содержимое из мультимедийных файлов, таких как изображение, mp3, wav, которое мне нужно опубликовать в Solr.
например,
- Я хочу извлечь текст из изображения файл.
- Я хочу извлечь текст из mp3
- Точно так же я хочу извлечь голосовые данные как текст из файла wav.
Я пробовал код ниже, но содержимое пустые или нулевые.
Startup.Init<IndexDocument>(ConfigurationManager.AppSettings["BaseUrl"]);
var solr = ServiceLocator.Current.GetInstance<ISolrOperations<IndexDocument>>();
string content = string.Empty;
int index = 15706;
using (FileStream fileStream = File.OpenRead(@"D:\Source\Content\Dont worry be Happy.mp3"))
{
var response =
solr.Extract(
new ExtractParameters(fileStream, "Dont worry be Happy")
{
ExtractFormat = ExtractFormat.Text,
ExtractOnly = true
});
content = response.Content;
}
solr.Add(new IndexDocument()
{
Id = index.ToString(),
DocId = "Dont worry be Happy",
Title = "Dont worry be Happy",
Text = content
});
solr.Commit();
Подскажите, пожалуйста, как использовать библиотеку Solr или Apache tika in. net для извлечения текстового содержимого.
Спасибо.