Я работаю над процессом анализа качества очищенных данных, а также тенденций в данных с течением времени.Это требует анализа десятков текстовых полей.Текстовые поля в основном являются BLOB-объектами, большинство из которых состоит из данных в произвольной форме из различных источников.Например, поле, содержащее информацию о транспортном средстве,
Hyundai Sonata 1999
1 Car, Chev; Value:2221.99
2012 Toyot Prius **..
Car Worth $1000
1995 Nissan
;;;.;.;;;;;;
$1000 VIN 1ZA334AXXVB1FUN1
One car estimated value of $10,000.00
Из приведенных выше примеров видно, что данные могут поступать различными способами.Выше приведены более экстремальные примеры, как правило, данные включают марку, модель, год и стоимость.Однако могут быть неправильно обработанные данные или пропущенные данные.
Я пытаюсь найти способ облегчить анализ этих полей.Я действительно не знаю хорошего способа, кроме стандартного процесса нормализации, а также нестандартного процесса включения качества.Если я хочу измерить качество на основе наличия определенных данных, таких как марка, модель, год, VIN, пробег и стоимость, возможно, существует метод ML, который может сделать это проще, или мне просто нужно создать словарьинформацию об автомобиле и использовать регулярные выражения и нечеткое соответствие?Я могу взвесить каждый атрибут в соответствии с важностью.
Результирующее среднее качество приведет к чему-то вроде этого, и затем будет проведено дальнейшее исследование, чтобы определить, почему качество лучше / хуже с годами,
2010 = 35%
2011 = 50%
2012 = 60%
2013 = 40%
Это правильный путь или есть другие варианты?Поскольку мне нужно сделать это для десятков (может быть, сотен) полей, чем проще, тем лучше.