Я использую sklearn
TfIdfVectorizer
для векторизации моего корпуса. В моем анализе есть некоторый документ, в котором все термины отфильтрованы из-за того, что он содержит все стоп-слова. Чтобы уменьшить проблему редкости и поскольку бессмысленно включать их в анализ, я бы хотел ее устранить.
В документе TfIdfVectorizer
нет параметров, которые можно было бы установить для этого. Поэтому я думаю удалить это вручную, прежде чем передать корпус в векторизатор. Однако это может привести к потенциальной проблеме, заключающейся в том, что полученные мной стоп-слова не совпадают со списком, используемым векторизатором, поскольку я также использую опции min_df
и max_df
для фильтрации терминов.
Есть ли лучший способ добиться того, что я ищу (т.е. удалить / игнорировать документ, содержащий все стоп-слова)?
Любая помощь будет принята с благодарностью.