Я думаю, что вы смешали несколько идей. Это правда, что существует различие, которое проводится между основанным на правилах и вероятностным подходом к задачам «ИИ», однако оно не имеет ничего общего с сильным или слабым ИИ, очень мало связано с психологией, и это не так ясно, как битва между двумя противоборствующими сторонами. Кроме того, я думаю, что высказывание байесовского вывода не использовалось в компьютерной науке, потому что вывод, являющийся NP-полным, вообще немного вводит в заблуждение. Этот результат часто не имеет большого значения на практике, и большинство алгоритмов машинного обучения в любом случае не делают реального байесовского вывода.
Сказав все это, история обработки естественного языка перешла от основанных на правилах систем в 80-х и начале 90-х годов к системам машинного обучения до наших дней. Посмотрите историю конференций MUC , чтобы увидеть ранние подходы к задаче извлечения информации. Сравните это с современным состоянием распознавания и анализа именованных сущностей ( ACL wiki является хорошим источником для этого), которые все основаны на методах машинного обучения.
Что касается конкретных ссылок, я сомневаюсь, что вы найдете кого-нибудь, кто пишет академическую статью, в которой говорится, что «статистические системы лучше, чем системы, основанные на правилах», потому что зачастую очень трудно сделать такое конкретное утверждение. Быстрый Google для «статистики на основе правил» дает такие документы, как this , который рассматривает машинный перевод и рекомендует использовать оба подхода в зависимости от их сильных и слабых сторон. Я думаю, вы обнаружите, что это довольно типично для академических работ. Единственная вещь, которую я прочитал, которая действительно стоит в этом вопросе - это « Неоправданная эффективность данных », что является хорошим чтением.