Проблема:
Поиск биграмм, триграмм и bigram_score для domain_name. У меня есть набор данных, и я хочу разграничить их, являются ли они доменами dga или не используют какую-то простую классификацию. Поэтому я хотел начать с биграмм, триграмм и энтропии.
Что я пробовал:
from nltk import ngrams
sentence = 'some big sentence'
n = 2
sixgrams = ngrams(sentence.split(), n)
for grams in sixgrams:
print grams
здесь я получил биграммы предложения. Но мое усиление не в этом.
я хочу конвертировать
Пример домена: google.co.in
bigrams
[‘$g’, ‘go’, ‘oo’, ‘og’, ‘gl’, ‘le’, ‘e$’, ‘$c’, ‘co’, ‘o$’, ‘$i’, ‘in’, ‘n$’]
trigrams
[‘$go’, ‘goo’, ‘oog’, ‘ogl’, ‘gle’, ‘le$’, ‘$co’, ‘co$’, ‘$in’, ‘in$’]
, а затем вычислите bigrams_score. Из которого я могу использовать его для прогнозирования модуля и анализа.
Может кто-нибудь помочь мне понять, как решить проблему?