Извлечение данных из огромного файла с использованием TikaOnDotNet - PullRequest
0 голосов
/ 12 февраля 2019

Есть ли в библиотеке TikaOnDotNet способ извлечь данные из огромного файла без ущерба для производительности?Извлечение данных из файла XLSX размером 52 МБ на компьютере высокого уровня заняло около 2-3 минут.

У меня есть сценарий, в котором мне нужно извлечь данные из файлов разных типов.Для файла .txt, если размер файла превышает 10 МБ, я делю его на куски по 10 МБ, используя File Stream, и делю по длине, но это не будет работать для XLSX, PDF и т. Д.

Мой вопросМожет ли библиотека TikaOnDotNet справиться с этим сама или нам нужно только разбить файлы XLSX на куски, используя Interop или OpenXMLSDK, и передать их в библиотеку TikaOnDotNet?

Любая помощь приветствуется.

СпасибоЗаранее.

Образец файла: https://drive.google.com/file/d/1UMZ_jnRpaiaNyuY8ecmnwUV9nbB5mX8V/view?usp=sharing

Образец кода:

using TikaOnDotNet.TextExtraction;
public static string extractDatafromTikaOnDotNet(string filepath)
{
     try
     {
          TextExtractor textExtractor = new TextExtractor();
          string result = textExtractor.Extract(filepath).Text;
          return result;
     }
     catch (Exception ex)
     {
         throw ex;
     }
 }
...