c # работает с файлами Excel с большими данными - PullRequest
0 голосов
/ 06 сентября 2018

Я копирую данные из первого листа разных файлов Excel в одну рабочую книгу. Я уже пробовал это с разными альтернативами, такими как npoi, spire.xls и Interop, которые хорошо работают, но убивают слишком много моего времени. Было бы очень благодарно, если бы кто-нибудь мог предложить мне лучший вариант. Пройдя через много форм в Интернете, но не смог найти.

К вашему сведению: каждый из моих файлов имеет размер более 50 МБ. Несколько - 10 МБ или меньше.

Это одна из тех, которые я пробовал (использует Spire.xls):

workbook = new Workbook();
//laod first file
workbook.LoadFromFile(names[0]);

//load the remaining files starting with second file
for (int i = 1; i < cnt; i++)
{
    LoadFIle(names[i]);
    //merge the loaded file immediately and than load next file
    MergeData();
}

private void LoadFIle(string filePath)
{
     //load other workbooks starting with 2nd workbbook
     tempbook = new Workbook();
     tempbook.LoadFromFile(filePath);
}

private void MergeData()
{
    try
    {
        int c1 = workbook.ActiveSheet.LastRow, c2 = tempbook.Worksheets[0].LastRow;

        //check if you have exceeded 1st sheet limit
        if ((c1 + c2) <= 1048575)
        {
           //import the second workbook's worksheet into the first workbook using a datatable
           //load 1st sheet of tempbook into sheet
           Worksheet sheet = tempbook.Worksheets[0];
           //copy data from sheet into a datatable
           DataTable dataTable = sheet.ExportDataTable();
           //load sheet1
           Worksheet sheet1 = workbook.Worksheets[workbook.ActiveSheetIndex];
           sheet1.InsertDataTable(dataTable, false, sheet1.LastRow + 1, 1);
       }
       else if ((c1 >= 1048575 && c2 >= 1048575) || c1 >= 1048575 || c2 >= 1048575 || (c1 + c2) >= 1048575)
       {
           workbook.Worksheets.AddCopy(tempbook.Worksheets[0]);
           indx = workbook.ActiveSheet.Index;
           workbook.ActiveSheetIndex = ++indx;
       }
       else
       {
           //import the second workbook's worksheet into the first workbook using a datatable
          //load 1st sheet of tempbook into sheet
           Worksheet sheet = tempbook.Worksheets[0];
           //copy data from sheet into a datatable
           DataTable dataTable = sheet.ExportDataTable();
           //load sheet1
           Worksheet sheet1 = workbook.Worksheets[workbook.ActiveSheetIndex];
           sheet1.InsertDataTable(dataTable, false, sheet1.LastRow + 1, 1);
      }
   }
   catch (IndexOutOfRangeException)
   {

   }
}
}

Ну, это хорошо работает, но, как сказал, занимает много времени. Любые предложения приветствуются. Заранее спасибо.

1 Ответ

0 голосов
/ 06 сентября 2018

Вот моя (самая быстрая из известных мне) реализация, использующая взаимодействие с Excel. Хотя я внимательно выглядел, чтобы выпустить все (должно быть, пропустил один), 2 экземпляра Excel остаются в списке процессов, они закрываются после завершения программы.

Ключ состоит в том, чтобы иметь только 2 экземпляра Open Excel и копировать данные в виде блока, используя Range.Value2.

//Helper function to cleanup
public void ReleaseObject(object obj)
{
    if (obj != null && Marshal.IsComObject(obj))
    {
        Marshal.ReleaseComObject(obj);
    }
}


public void CopyIntoOne(List<string> pSourceFiles, string pDestinationFile)
{

    var sourceExcelApp = new Microsoft.Office.Interop.Excel.Application();
    var destinationExcelApp = new Microsoft.Office.Interop.Excel.Application();

    // TODO: Check if it exists
    destinationExcelApp.Workbooks.Open(pDestinationFile);
    // for debug
    //destinationExcelApp.Visible = true;
    //sourceExcelApp.Visible = true;
    int i = 0;
    var sheets = destinationExcelApp.ActiveWorkbook.Sheets;
    var lastsheet = destinationExcelApp.ActiveWorkbook.Sheets[sheets.Count];
    ReleaseObject(sheets);
    foreach (var srcFile in pSourceFiles)
    {
        sourceExcelApp.Workbooks.Open(srcFile);
        // get extends
        var lastRow = sourceExcelApp.ActiveSheet.Cells.Find("*", System.Reflection.Missing.Value,
            System.Reflection.Missing.Value, System.Reflection.Missing.Value, XlSearchOrder.xlByRows,
            XlSearchDirection.xlPrevious, false, System.Reflection.Missing.Value, System.Reflection.Missing.Value);
        var lastCol = sourceExcelApp.ActiveSheet.Cells.Find("*", System.Reflection.Missing.Value, System.Reflection.Missing.Value,
            System.Reflection.Missing.Value, XlSearchOrder.xlByColumns, XlSearchDirection.xlPrevious, false,
            System.Reflection.Missing.Value, System.Reflection.Missing.Value);
        var startCell = (Range) sourceExcelApp.ActiveWorkbook.ActiveSheet.Cells[1, 1];
        var endCell = (Range) sourceExcelApp.ActiveWorkbook.ActiveSheet.Cells[lastRow.Row, lastCol.Column];
        var myRange = sourceExcelApp.ActiveWorkbook.ActiveSheet.Range[startCell, endCell];
        // copy the values
        var value = myRange.Value2;

        // create sheet in new Workbook at the end                
        Worksheet newSheet = destinationExcelApp.ActiveWorkbook.Sheets.Add(After: lastsheet);
        ReleaseObject(lastsheet);
        lastsheet = newSheet;
        //its even faster when adding it at the front
        //Worksheet newSheet = destinationExcelApp.ActiveWorkbook.Sheets.Add();

        // change that to a good name
        newSheet.Name = ++i + "";

        var dstStartCell = (Range) destinationExcelApp.ActiveWorkbook.ActiveSheet.Cells[1, 1];
        var dstEndCell = (Range) destinationExcelApp.ActiveWorkbook.ActiveSheet.Cells[lastRow.Row, lastCol.Column];
        var dstRange = destinationExcelApp.ActiveWorkbook.ActiveSheet.Range[dstStartCell, dstEndCell];
        // this is the actual paste
        dstRange.Value2 = value;
        //cleanup

        ReleaseObject(startCell);
        ReleaseObject(endCell);
        ReleaseObject(myRange);
        ReleaseObject(value);// cannot hurt, but not necessary since its a simple array
        ReleaseObject(dstStartCell);
        ReleaseObject(dstEndCell);
        ReleaseObject(dstRange);
        ReleaseObject(newSheet);
        ReleaseObject(lastRow);
        ReleaseObject(lastCol);
        sourceExcelApp.ActiveWorkbook.Close(false);

    }
    ReleaseObject(lastsheet);

    sourceExcelApp.Quit();
    ReleaseObject(sourceExcelApp);
    destinationExcelApp.ActiveWorkbook.Save();
    destinationExcelApp.Quit();
    ReleaseObject(destinationExcelApp);

    destinationExcelApp = null;
    sourceExcelApp = null;

}

Я проверил его на небольших файлах Excel и мне любопытно, как он ведет себя с большими файлами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...