Есть ли в библиотеке TikaOnDotNet способ извлечь данные из огромного файла без ущерба для производительности?Извлечение данных из файла XLSX размером 52 МБ на компьютере высокого уровня заняло около 2-3 минут.
У меня есть сценарий, в котором мне нужно извлечь данные из файлов разных типов.Для файла .txt, если размер файла превышает 10 МБ, я делю его на куски по 10 МБ, используя File Stream, и делю по длине, но это не будет работать для XLSX, PDF и т. Д.
Мой вопросМожет ли библиотека TikaOnDotNet справиться с этим сама или нам нужно только разбить файлы XLSX на куски, используя Interop или OpenXMLSDK, и передать их в библиотеку TikaOnDotNet?
Любая помощь приветствуется.
СпасибоЗаранее.
Образец файла: https://drive.google.com/file/d/1UMZ_jnRpaiaNyuY8ecmnwUV9nbB5mX8V/view?usp=sharing
Образец кода:
using TikaOnDotNet.TextExtraction;
public static string extractDatafromTikaOnDotNet(string filepath)
{
try
{
TextExtractor textExtractor = new TextExtractor();
string result = textExtractor.Extract(filepath).Text;
return result;
}
catch (Exception ex)
{
throw ex;
}
}