Я не делал этого раньше, но некоторые другие мысли:
Проверьте на наличие неправильных существительных (например, "и", "the", "piping").На самом деле, если у вас есть словарь английского языка и список имен, любое слово, которое не является именем, может быть хорошим указателем на название компании.
Большая проблема заключается в том, что некоторые компании просто называют в честь человека(ы).«Fred Meyer», «JC Penney» и «Lockheed Martin» являются примерами компаний, которые выглядят как человеческие имена.Вероятно, нет действительно хорошего способа обойти это (вероятно, ничего легкого в любом случае).Если вы можете классифицировать имена и фамилии, двойная фамилия или фамилия может быть хорошей причиной для снижения достоверности.
Я бы согласился с вашей целочисленной идеей.Если вы не сможете провести очень широкое и очень тщательное тестирование, ваши проценты, вероятно, будут бессмысленными.Вероятно, я бы запустил все тесты (возвращая имя, компанию или неизвестно) и сравнил бы результаты, добавив целое число, основанное на согласованности результатов.