Фон
Создать лексику вероятности на основе CSV-файла слов и подсчетов.Это прелюдия к проблеме сегментации текста, а не домашняя работа.
Задача
При наличии CSV-файла со следующими словами и подсчетами:
aardvark,10
aardwolf,9
armadillo,9
platypus,5
zebra,1
Создатьфайл с вероятностями относительно самого большого числа в файле:
aardvark,1
aardwolf,0.9
armadillo,0.9
platypus,0.5
zebra,0.1
Где, например, aardvark,1
рассчитывается как aardvark,10/10
, а platypus,0.5
вычисляется как platypus,5/10
.
Вопрос
Какой самый эффективный способ реализации сценария оболочки для создания файла относительных вероятностей?
Ограничения
- Ни слова, ни цифрыв любом порядке.
- Нет основных языков программирования (таких как Perl, Ruby, Python, Java, C, Fortran или Cobol).
- Стандартные инструменты Unix, такие как
awk
, sed
или sort
приветствуются. - Все вероятности должны быть относительно наибольшей вероятности в файле.
- Слова уникальны, числа не являются.
- Подсчеты являются натуральными числами.
Спасибо!