Не могли бы вы помочь мне с этим У меня есть файл CSV с двумя столбцами: milliseconds
и topics
.Мой CSV-файл выглядит следующим образом:
1.4998308E+12,mandatory field not present
1.4998309E+12,all digits must be 0-9
1.4998310E+12,must be a valid date (CCYYMMDD)
1.4998314E+12,must or spaces
1.4998315E+12,must be a valid time
1.4998317E+12,must be <= date of injury
1.4998318E+12,must be date of injury
1.4998320E+12,must be Initial date disability began
1.4998322E+12,must be employee date of death
1.4998323E+12,must be maintenance type code date
1.4998324E+12,no match on database
1.4998326E+12,all digits cannot be the same
1.4998328E+12,must be current date
1.4998331E+12,value is required by jurisdiction
1.4998333E+12,value is required by jurisdiction
1.4998336E+12,must be employee date of Hire
1.4998336E+12,duplicate batch/Transaction
1.4998337E+12,must be employee date of Hire
1.4998338E+12,Must or spaces
1.4998339E+12,must be a valid space
1.4998340E+12, must be <= date of Injury
1.4998341E+12,must be a valid location
1.4998342E+12,must be a valid phone
1.4998343E+12,must be a valid phone
окон, разделенных на 5-минутный интервал времени, когда время начинается с 12.07.2017, 6:40:00 и 12.12.2017, 7:38:20.как это
window(1) start from 6:40:00 to 6:44:00
window(2) start from 6:45:00 to 6:49:00
window(3) start from 6:50:00 to 6:54:00
window(4) start from 6:55:00 to 6:59:00
window(5) start from 7:00:00 to 7:04:00
window(6) start from 7:05:00 to 7:09:00
etc
Теперь я хочу подсчитать число повторений каждого слова в каждом окне, используя Python3 без подсчета некоторого слова, подобного (is, <=, be), где результат выглядит как: (это просто пример) </p>
mail 0 0 0 0 0 0 0 0 0 0 0 1 total 01
mandatory 1 0 0 0 0 0 0 0 0 0 0 0 total 01
field 1 0 0 0 0 0 0 0 0 0 0 0 total 01
must 3 0 2 0 5 0 2 0 1 3 0 4 total 20
etc
где окно (1) повторяется field
1 раз, повторяется mail
0 раз и т. д.