У меня есть несколько файлов CSV, и приведенный ниже код используется для подсчета количества вхождений различных значений в таблицу, загруженную с первым файлом CSV. Все CSV-файлы имеют только один столбец с именем «numbers».
LOAD DATA INFILE 'path/to/file.csv'
INTO TABLE table_1
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
SELECT numbers, COUNT(1) as count
FROM table_1
GROUP BY numbers
ORDER BY count DESC
LIMIT 10
INTO OUTFILE 'path/to/file_with_results_1.csv'
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';
Мне нужно переписать этот код, чтобы обновить результат, полученный в первом CSV-файле, значениями в других CSV-файлах.
В конце процесс будет:
1) загрузить таблицу с первым CSV-файлом;
2) подсчитать количество вхождений различных значений и сохранить CSV файл с 10 наиболее частыми числами;
3) загрузить новую таблицу со вторым файлом CSV;
4) пересчитать количество вхождений различных значений и сохранить новый файл CSV с 10 самых частых чисел;
5) повторите этот процесс до последнего файла CSV.
Чтобы ускорить этот процесс, я бы хотел избежать необходимости начинать процесс подсчета с помощью первый файл каждый раз, когда загружается новый CSV-файл. Например: когда загружается последний файл CSV, для подсчета всех данных потребуется много времени, начиная с первого файла.
Это будет быстрее, если процесс подсчета возобновится с того места, где он остановился.
Спасибо.