Теперь у меня есть 12 намерений идентифицировать. The Но количество данных для каждого намерения противоречиво. , Как и в случае с собраниями, напоминая об этих намерениях, количество данных будет исчисляться тысячами. Но, как и приветствия, спасибо за такое намерение, естьочень мало образцов данных, может быть, всего несколько десятков.
Как мне справиться с этой проблемой дисбаланса данных?
Содержимое моего файла config.yml выглядит следующим образом:
language: en
pipeline:
- name: "WhitespaceTokenizer"
- name: "RegexFeaturizer"
- name: "CountVectorsFeaturizer"
analyzer: char_wb
min_ngram: 2
max_ngram: 5
stop_words: "english"
- name: "CRFEntityExtractor"
- name: "extractor.regex.RegexEntityExtractor"
- name: "EmbeddingIntentClassifier"
epochs: 100
num_neg: 2
- name: "DucklingHTTPExtractor"
url: "http://localhost:8000"
dimensions: ["time", "duration", "phone-number", "distance"]
policies:
- name: MemoizationPolicy
- name: EmbeddingPolicy
epochs: 20
- name: FormPolicy
- name: MappingPolicy
- name: FallbackPolicy
fallback_action_name: "action_default_fallback"