На самом деле, TF-IDF - это оценка, присваиваемая термину в документе, а не всему документу.Если вы просто хотите использовать TF-IDF для каждого термина в документе, возможно, используйте этот метод , не касаясь Lucene.Если вы хотите создать поисковую систему, вам нужно сделать немного больше (например, извлечь текст из заданных URL, чьи соответствующие документы, вероятно, не будут содержать необработанный текст).Если это так, рассмотрите возможность использования Solr .