Я думаю, что то, что Amazon называет «Statiscal невероятные фразы», - это слова, которые невероятны по отношению к их огромному объему данных. По сути, даже если слово повторяется 1000 раз в данной книге А, если эта книга - единственное место, где оно появляется, то это SIP, потому что вероятность его появления в любой данной книге равна нулю (потому что это специфично для книги А). Вы не сможете по-настоящему продублировать это множество данных для сравнения, если только вы сами не работаете с большим количеством данных.
Что такое много данных? Что ж, если вы анализируете литературные тексты, вам нужно скачать и обработать пару тысяч книг из Гутенберга. Но если вы анализируете юридические тексты, то вам необходимо специально указать содержание юридических книг.
Если, как, вероятно, имеет место, у вас нет большого количества данных в качестве роскоши, то вы должны, так или иначе, полагаться на частотный анализ. Но вместо того, чтобы рассматривать относительные частоты (фракции текста, как это часто считается), рассмотрим абсолютные частоты.
Например, hapax legomenon , также известный в области сетевого анализа как 1-мышь , может представлять особый интерес. Это слова, которые встречаются в тексте только один раз. Например, в «1011» Ulysses Джеймса Джойса эти слова встречаются только один раз: послестиллярный, разъедающий, романский, макромир, диаконал, сжимаемость, более выраженный. Они не являются статистически невероятными фразами (как, например, «Леопольд Блум»), поэтому они не характеризуют книгу. Но это достаточно редкие термины, которые встречаются только один раз в выражении этого автора, поэтому вы можете считать, что они каким-то образом характеризуют его выражение. Это слова, которые, в отличие от распространенных слов, таких как «цвет», «плохо» и т. Д., Которые он явно стремился использовать.
Так что это интересный артефакт, и дело в том, что его довольно легко извлечь (например, O (N) с постоянной памятью), в отличие от других, более сложных, индикаторов. (И если вам нужны элементы, которые встречаются несколько чаще, то вы можете обратиться к 2-мышам, ..., 10-мышам, которые также легко извлекаются.)