итерация 2D данных по столбцам, обработка и хранение заголовков столбцов в Java - PullRequest
1 голос
/ 06 ноября 2019

У меня большие текстовые файлы, я хотел бы пройтись по столбцам, выполняя некоторые сравнения предыдущего и следующего значения, а затем сохранить связанные с ними заголовки столбцов в списке для последующего использования. Пожалуйста, дайте мне несколько советов о том, как эффективно решить эту проблему. Ниже то, что сделано до сих пор, не может пройти мимо попытки использовать «для циклов»! Спасибо.

import java.io.File;
import java.io.FileNotFoundException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Scanner;

public class Projections {

    public static void main(String[] args) {
        String fileName= "study_panel.csv";
        File file= new File(fileName);

        // 2-dimensional list of strings
        List<List<String>> lines = new ArrayList<>();
        Scanner inputStream;
        try{
            inputStream = new Scanner(file);

            while(inputStream.hasNext()){
                String line= inputStream.next();
                String[] values = line.split(",");
                // Adds the currently parsed line to the 2-dimensional string list
                lines.add(Arrays.asList(values));
            }

            //Compare specific elements in the list
            String svalue = lines.get(3).get(1);
            String svalue2 = lines.get(3).get(2);
            if(svalue.equals(svalue2)){
                System.out.println("No recombination");
                //store column`s header in list
            }
            else{
                System.out.println("Recombination");
                //store column`s header in list
            }

            inputStream.close();
        }catch (FileNotFoundException e) {
            e.printStackTrace();
        }

        // Iterate through the 2-dimensional data and store column headers
        int lineNo = 0;
        for(List<String> line: lines) {
            int columnNo = 0;
            String previousValue=None;
            String newValue;

            for (String value: line) {

                //Compare column elements in the 2-dimensional data

                if(previousValue.equals(newValue)){
                    System.out.println("No recombination");
                    //store column`s header in list
                }
                else{
                    System.out.println("Recombination");
                    //store column`s header in list
                }
              // System.out.println("Individual " + lineNo + " Site " + columnNo + ": " + value);
                columnNo++;
            }
            lineNo++;
        }


    }
}

1. Образец данных исследования

ID,S1_577905,S1_1066894,S1_1293038,S1_1491834
ind1,A,A,A,A
ind2,B,B,B,B
ind3,B,B,A,A
ind4,B,A,B,B
ind5,A,A,H,A
ind6,A,-,B,B
ind7,A,B,A,H

Пример справочных данных
ID,S1_570493,S1_592115,S1_604416,S1_614892,S1_618220,S1_636801,S1_654822,S1_655362,S1_723787,S1_723892,S1_858753,S1_867194,S1_923829,S1_925667,S1_1009779,S1_1009843,S1_1010052,S1_1010123,S1_1010298,S1_1010403,S1_1029733,S1_1039046,S1_1040024,S1_1044174,S1_1044355,S1_1049540,S1_1049657,S1_1050097,S1_1050995,S1_1126726,S1_1166956,S1_1177001,S1_1185437,S1_1188610,S1_1191450,S1_1195593,S1_1195669,S1_1195782,S1_1197394,S1_1207757,S1_1207893,S1_1211271,S1_1211343,S1_1223120,S1_1223377,S1_1237046,S1_1251020,S1_1280051,S1_1280124,S1_1284151,S1_1308043,S1_1340776,S1_1341385,S1_1363675,S1_1363753,S1_1407704,S1_1410354,S1_1431655,S1_1433696,S1_1490941,S1_1507081
A,T,T,A,C,C,T,T,T,G,G,A,A,A,A,G,G,T,G,C,G,C,T,G,C,T,A,G,C,C,C,T,T,A,C,A,G,G,A,G,C,G,T,A,C,C,A,G,A,G,C,C,A,T,T,C,A,T,T,A,G,G
B,C,G,T,A,T,C,C,A,C,A,C,C,C,G,T,A,C,C,T,A,G,A,T,T,G,G,A,A,T,T,C,C,C,T,G,A,A,C,T,T,A,C,T,A,G,T,A,G,A,T,T,G,C,A,T,G,C,C,C,A,T

Пример ожидаемых результатов
ID,S1_570493,S1_592115,S1_604416,S1_614892,S1_618220,S1_636801,S1_654822,S1_655362,S1_723787,S1_723892,S1_858753,S1_867194,S1_923829,S1_925667,S1_1009779,S1_1009843,S1_1010052,S1_1010123,S1_1010298,S1_1010403,S1_1029733,S1_1039046,S1_1040024,S1_1044174,S1_1044355,S1_1049540,S1_1049657,S1_1050097,S1_1050995,S1_1126726,S1_1166956,S1_1177001,S1_1185437,S1_1188610,S1_1191450,S1_1195593,S1_1195669,S1_1195782,S1_1197394,S1_1207757,S1_1207893,S1_1211271,S1_1211343,S1_1223120,S1_1223377,S1_1237046,S1_1251020,S1_1280051,S1_1280124,S1_1284151,S1_1308043,S1_1340776,S1_1341385,S1_1363675,S1_1363753,S1_1407704,S1_1410354,S1_1431655,S1_1433696,S1_1490941,S1_1507081
ind1,T,T,A,C,C,T,T,T,G,G,A,A,A,A,G,G,T,G,C,G,C,T,G,C,T,A,G,C,C,C,T,T,A,C,A,G,G,A,G,C,G,T,A,C,C,A,G,A,G,C,C,A,T,T,C,A,T,T,A,G,G
ind2,C,G,T,A,T,C,C,A,C,A,C,C,C,G,T,A,C,C,T,A,G,A,T,T,G,G,A,A,T,T,C,C,C,T,G,A,A,C,T,T,A,C,T,A,G,T,A,G,A,T,T,G,C,A,T,G,C,C,C,A,T
ind3,C,G,T,A,T,C,C,A,C,A,C,C,C,G,T,A,C,C,T,A,G,A,T,T,G,G,A,A,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,C,C,A,T,T,C,A,T,T,A,G,G
ind4,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,C,C,A,T,T,C,A,T,T,A,G,G
ind5,T,T,A,C,C,T,T,T,G,G,A,A,A,A,G,G,T,G,C,G,C,T,G,C,T,A,G,C,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-
ind6,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,T,T,G,C,A,T,G,C,C,C,A,T
ind7,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-

1 Ответ

0 голосов
/ 06 ноября 2019

Предполагая, что вы не хотите использовать библиотеки CSV (в любом случае ваш CSV выглядит довольно просто), я попытался обновить ваш код.

public static void main(String[] args) {
        String fileName= "study_panel.csv";
        File file= new File(fileName);

        // 2-dimensional list of strings
        List<List<String>> lines = new ArrayList<>();
        List<String> header = null; //Lets store the header in a seperate list
        Map<Integer, List<String>> recombinationM = new HashMap<>();
        Map<Integer, List<String>> noRecombinationM = new HashMap<>();

        Scanner inputStream;
        try{
            inputStream = new Scanner(file);

            while(inputStream.hasNext()){
                String line= inputStream.next();
                String[] values = line.split(",");

                if (header == null){
                    header= Arrays.asList(values);
                    continue;//go to the next line as header is read
                }
                // Adds the currently parsed line to the 2-dimensional string list
                lines.add(Arrays.asList(values));
            }
            inputStream.close();
        }catch (FileNotFoundException e) {
            e.printStackTrace();
        }

        // Iterate through the 2-dimensional data and store column headers


        for (int i=0; i<lines.size(); i++) {
            List<String> recombinationHdr = new ArrayList<>();
            List<String> noRecombinationHdr = new ArrayList<>();
            for (int j=0; j<lines.get(i).size()-1; j++) {
                //Comparison
                if (lines.get(i).get(j).equals(lines.get(i).get(j + 1))) {
                    System.out.println("No recombination");
                    noRecombinationHdr.add(header.get(j));//To store the current header
                    //hdrs.add(header.get(j+1)); // To store the next header
                } else {
                    System.out.println("Recombination");
                    recombinationHdr.add(header.get(j));//To store the current header
                    //recombinationHdr.add(header.get(j+1)); // To store the next header
                }
            }
            recombinationM.put(i, recombinationHdr);
            noRecombinationM.put(i, noRecombinationHdr);
        }
        //Print maps
        System.out.println("== No Recombination ==");
        for (Map.Entry<Integer,List<String>> entry : noRecombinationM.entrySet()){
           System.out.println("Line: " + entry.getKey() + " - " + entry.getValue().toString());
        }

        System.out.println("== Recombination ==");
        for (Map.Entry<Integer,List<String>> entry : recombinationM.entrySet()){
           System.out.println("Line: " + entry.getKey() + " - " + entry.getValue());
        }
    }

Я ввел заголовок List, где хранится первая строка CSV (столбцы), поэтому она отделена от остальных строк, которые хранятся в строках List. И я представил две выходные Карты для заголовков рекомбинации и без заголовков рекомбинации. Ключ карты - это номер строки, а значение карты - список заголовков строк.

Основные части кода - это часть сканера, где CSV считывается и вставляется в два списка (заголовок и строки). Вторая часть - это итерация списка и проверки. Я не уверен, правильно ли я понял, что вы имеете в виду, сравнивая значения, основанные на следующих / предыдущих значениях, и я предположил, что вы имеете в виду, что сравнение находится на одной линии между текущим и следующим индексом столбца: if (lines.get(i).get(j).equals(lines.get(i).get(j + 1))) {таким образом, для строки i она сравнивает значение j со следующим значением j + 1.

На основании вышеупомянутой оценки строка и заголовок header.get(j) сохраняются в карте рекомбинации / noRecombination.

Результат на вашем примере следующий:

== No Recombination ==
Line: 0 - [S1_577905, S1_1066894, S1_1293038, S1_1491834, S1_1564133]
Line: 1 - [S1_577905, S1_1066894, S1_1293038, S1_1491834]
Line: 2 - [S1_1491834, S1_1564133]
Line: 3 - [S1_577905, S1_1066894, S1_1293038, S1_1491834, S1_1564133]
Line: 4 - [S1_577905, S1_1491834]
Line: 5 - [S1_577905, S1_1293038, S1_1491834, S1_1564133]
Line: 6 - [S1_1293038, S1_1491834, S1_1564133]
== Recombination ==
Line: 0 - [ID]
Line: 1 - [ID, S1_1564133]
Line: 2 - [ID, S1_577905, S1_1066894, S1_1293038]
Line: 3 - [ID]
Line: 4 - [ID, S1_1066894, S1_1293038, S1_1564133]
Line: 5 - [ID, S1_1066894]
Line: 6 - [ID, S1_577905, S1_1066894]

Если вы не хотите сравнивать первый столбец (ID), вы можете запустить второй цикл с j = 1.

...