Должен ли я сначала разбить предложения или я могу только целиком данные (2 предложения) для модели?
Это зависит.Все связано с вашими целями.
Похоже, вы тренируете NER .В этом случае лучше использовать несколько коротких фраз, так как NER зависит от окружающих слов для предсказания сущности - поэтому, если вы предоставите слишком большие тексты, парсеры будут игнорировать их части (зависит от инструмента) или будут влиять на ваши результаты.(отрицательно).
Короче, TRAIN_DATA_1 против TRAIN_DATA_2, что правильно и почему?
Нет "правильного" ответа.Как уже упоминалось, это зависит от инструмента и цели. Я бы порекомендовал разделение, так как вы сможете произвести больше выборок данных для лучшего обучения.
Исключение относится к случаю разрешения по контрольным значениям, поскольку части второй разделенной фразыможет относиться к первому.Но я предполагаю, что это редкий случай.
Это также может быть в случае анализа настроений и других конечных задач, когда у вас есть несколько периодов, относящихся к одному утверждению, которое уже было классифицировано и не может быть разбито без потери информации / смысла.