Текст семанти c предварительной обработки - PullRequest
0 голосов
/ 18 февраля 2020

Давайте предположим, что у меня есть набор данных автомобильных аварий. Каждая авария имеет текстовое описание, сделанное с использованием набора камер и других датчиков.

Предположим, теперь у меня есть данные только одной камеры (например, фронтальной), и я хочу удалить все предложения описания, которые не связаны с ним. Я думаю, что базовое и простое решение могло бы заключаться в использовании логической системы поиска, использующей набор специфических c ключевых слов для удаления нежелательных предложений, но я не знаю, является ли это хорошей идеей, если она могла бы работать ; кто-то может предложить мне какую-нибудь идею? Какие статистические данные могут быть полезны для изучения этой проблемы? Спасибо

1 Ответ

0 голосов
/ 18 февраля 2020

Regex может быть одним из решений. Я создал регулярное выражение, соответствующее слову "front", без учета регистра, которое ищет front, а затем получает целые предложения с одним или несколькими совпадениями. Результаты могут быть урезаны от начальных пробелов. (Вероятно, может быть также удален с помощью некоторой тонкой настройки.)

Слово, которое вы можете поменять через некоторую переменную, беря значения из списка, если вам нужны "front", "Rear", "side", " right "," left "или др.

Пример регулярного выражения https://regex101.com/r/ZHU0kr/5

...