Я хотел получить информацию по интересной проблеме, которую мне назначили.Задача состоит в том, чтобы проанализировать сотни и даже тысячи политик конфиденциальности и определить их основные характеристики.Например, они берут местоположение пользователя? Они делятся / продают третьим лицам? И т. Д.
Я разговаривал с несколькими людьми, много читал о политике конфиденциальности и сам думал об этом.,Вот мой текущий план атаки:
Во-первых, прочитайте много секретности и найдите основные «сигналы» или индикаторы того, что определенная характеристика встречается.Например, если сотни политик конфиденциальности имеют одну и ту же строку: «Мы примем ваше местоположение», эта строка может быть сигналом со 100% уверенностью, что эта политика конфиденциальности включает в себя определение местоположения пользователя.Другие сигналы дают гораздо меньшую степень уверенности в отношении определенной характеристики. Например, наличие слова «местоположение» может повысить вероятность того, что местоположение пользователя сохраняется на 25%.
Идея заключалась бы в том, чтопродолжать развивать эти сигналы и их соответствующие доверительные интервалы до такой степени, чтобы я мог с высокой степенью уверенности классифицировать все политики конфиденциальности.Здесь можно привести аналогию с системами по борьбе со спамом в электронной почте, которые используют байесовские фильтры, чтобы определить, какая почта, скорее всего, является коммерческой и нежелательной.
Я хотел бы спросить, считаете ли вы, ребята, хорошим ли подходом к этой проблеме.Как именно вы подходите к такой проблеме?Кроме того, есть ли какие-либо конкретные инструменты или платформы, которые вы бы порекомендовали использовать.Любой вклад приветствуется.Я впервые делаю проект, касающийся искусственного интеллекта, в частности машинного обучения и НЛП.