Spacy: Должен ли я тренировать модель на одном предложении или я могу передать два предложения вместе? - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть несколько предложений, подобных приведенному ниже, в моей базе данных:

KP Snacks Ltd вспоминает определенные коды дат 4 вариантов чипсов McCoy для нескольких пакетов.KP Snacks Ltd предприняла предупредительный отзыв на продукты, перечисленные ниже, так как очень небольшое количество этих пакетов с чипсами может содержать небольшие кусочки пластика.

Должен ли я сначала разделить предложения или я могу простоцелые данные (2 предложения) для модели?

TRAIN_DATA_1 = [
    ("KP Snacks Ltd recalls certain date codes of 4 variants of McCoy’s multi bag crisps. KP Snacks Ltd has undertaken a precautionary recall of the products listed below as a very small number of these bags of crisps may contain small pieces of plastic.", {"entities": []}),
    ("I like London and Berlin.", {"entities": []}),
]

TRAIN_DATA_2 = [
    ("KP Snacks Ltd recalls certain date codes of 4 variants of McCoy’s multi bag crisps.", {"entities": []}),
("KP Snacks Ltd has undertaken a precautionary recall of the products listed below as a very small number of these bags of crisps may contain small pieces of plastic.", {"entities": []}),
    ("I like London and Berlin.", {"entities": []}),
]

Короче говоря, TRAIN_DATA_1 против TRAIN_DATA_2, что правильно и почему?

1 Ответ

2 голосов
/ 23 сентября 2019

Должен ли я сначала разбить предложения или я могу только целиком данные (2 предложения) для модели?

Это зависит.Все связано с вашими целями.

Похоже, вы тренируете NER .В этом случае лучше использовать несколько коротких фраз, так как NER зависит от окружающих слов для предсказания сущности - поэтому, если вы предоставите слишком большие тексты, парсеры будут игнорировать их части (зависит от инструмента) или будут влиять на ваши результаты.(отрицательно).

Короче, TRAIN_DATA_1 против TRAIN_DATA_2, что правильно и почему?

Нет "правильного" ответа.Как уже упоминалось, это зависит от инструмента и цели. Я бы порекомендовал разделение, так как вы сможете произвести больше выборок данных для лучшего обучения.

Исключение относится к случаю разрешения по контрольным значениям, поскольку части второй разделенной фразыможет относиться к первому.Но я предполагаю, что это редкий случай.

Это также может быть в случае анализа настроений и других конечных задач, когда у вас есть несколько периодов, относящихся к одному утверждению, которое уже было классифицировано и не может быть разбито без потери информации / смысла.

...