Подсчитать количество вхождений различных значений - PullRequest
0 голосов
/ 02 марта 2020

У меня есть несколько файлов CSV, и приведенный ниже код используется для подсчета количества вхождений различных значений в таблицу, загруженную с первым файлом CSV. Все CSV-файлы имеют только один столбец с именем «numbers».

LOAD DATA INFILE 'path/to/file.csv' 
INTO TABLE table_1
FIELDS TERMINATED BY ',' 
LINES TERMINATED BY '\n';

SELECT numbers, COUNT(1) as count 
FROM table_1 
GROUP BY numbers 
ORDER BY count DESC
LIMIT 10
INTO OUTFILE 'path/to/file_with_results_1.csv'
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n';

Мне нужно переписать этот код, чтобы обновить результат, полученный в первом CSV-файле, значениями в других CSV-файлах.

В конце процесс будет:

1) загрузить таблицу с первым CSV-файлом;

2) подсчитать количество вхождений различных значений и сохранить CSV файл с 10 наиболее частыми числами;

3) загрузить новую таблицу со вторым файлом CSV;

4) пересчитать количество вхождений различных значений и сохранить новый файл CSV с 10 самых частых чисел;

5) повторите этот процесс до последнего файла CSV.

Чтобы ускорить этот процесс, я бы хотел избежать необходимости начинать процесс подсчета с помощью первый файл каждый раз, когда загружается новый CSV-файл. Например: когда загружается последний файл CSV, для подсчета всех данных потребуется много времени, начиная с первого файла.

Это будет быстрее, если процесс подсчета возобновится с того места, где он остановился.

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...