Как бороться с проблемой дисбаланса данных Rsa NL? - PullRequest
0 голосов
/ 19 октября 2019

Теперь у меня есть 12 намерений идентифицировать. The Но количество данных для каждого намерения противоречиво. , Как и в случае с собраниями, напоминая об этих намерениях, количество данных будет исчисляться тысячами. Но, как и приветствия, спасибо за такое намерение, естьочень мало образцов данных, может быть, всего несколько десятков.

Как мне справиться с этой проблемой дисбаланса данных?

Содержимое моего файла config.yml выглядит следующим образом:

language: en

pipeline:
  - name: "WhitespaceTokenizer"
  - name: "RegexFeaturizer"
  - name: "CountVectorsFeaturizer"
    analyzer: char_wb
    min_ngram: 2
    max_ngram: 5
    stop_words: "english"
  - name: "CRFEntityExtractor"
  - name: "extractor.regex.RegexEntityExtractor"
  - name: "EmbeddingIntentClassifier"
    epochs: 100
    num_neg: 2
  - name: "DucklingHTTPExtractor"
    url: "http://localhost:8000"
    dimensions: ["time", "duration", "phone-number", "distance"]

policies:
  - name: MemoizationPolicy
  - name: EmbeddingPolicy
    epochs: 20
  - name: FormPolicy
  - name: MappingPolicy
  - name: FallbackPolicy
    fallback_action_name: "action_default_fallback"

1 Ответ

1 голос
/ 22 октября 2019

Не знаю, правильно ли я понял ваш вопрос. Насколько я понял, вам не нужно беспокоиться о таких намерениях, как приветствие, у deny мало данных (примеров), а у других тысячи данных (примеров).

Проблема возникает, когда вы пытаетесь иметь дело с несколькими намерениями, и эти намерения очень мало отличаются друг от друга. В такой ситуации, если вы не предоставите правильные и правильные данные в RASA, это приведет к путанице и может дать неправильный вывод. Вам следует позаботиться о том, как сделать эти данные разными для каждого намерения и сделать RASA менее запутанным, чтобы вы могли получить правильный вывод.

...