Хорошо, если предположить, что вы хотите найти совпадение двух разных слов в файле ngrams ....
Вот псевдокод Java:
// Co-occurrence matrix
Hashmap<String,HashMap<String,Integer>> map = new HashMap();
// List of ngrams
ArrayList<ArrayList<String>> ngrams = ..... // assume we've loaded them into here already
// build the matrix
for(ArrayList<String> ngram:ngrams){
// Calculate word co-occurrence in ngram for all words
// result is an map strings-> count
// words in alphabetical order
Hashmap<String,<ArrayList<String>,Integer> wordCoocurrence = cooccurrence(ngram) // assume we have this
// then just join this with original
}
// and just query with words in alphabetic order
Делать подсчет как это, вероятно, было бы неплохо со Свинью, но вы, вероятно, знакомы с этим больше, чем я