У меня есть школьное задание, чтобы создать анализатор языка, который мог бы угадывать язык ввода. Назначение утверждает, что это должно быть сделано путем предварительного анализа текстов, определенных на языке, и составления статистики об используемых буквах, комбинациях букв и т. Д., А затем на основе этих данных делается предположение.
Структура данных, которую мы должны использовать, - это простые многомерные хеш-таблицы, но я хотел бы воспользоваться этой возможностью, чтобы узнать немного больше о реализации структур и т. Д. Что бы я хотел знать, это что читать о. Мои знания об алгоритмах очень ограничены, но я стремлюсь учиться, если кто-то может указать мне правильное направление.
Не имея никаких реальных знаний и просто читая различные посты, я в настоящее время планирую изучать неориентированные графы в качестве структуры данных для буквенных комбинаций (и каким-то образом хранить статистику в графике) и Бойер-Мура для каждого слова алгоритм поиска.
Я совершенно не на том пути, и это было бы невозможно реализовать в этой ситуации, или есть что-то еще лучше для этой проблемы?