Я не уверен, как подойти к следующей проблеме, и я ищу некоторые рекомендации:
У меня есть файл, который содержит случайный заголовок объявления в каждой строке. Что мне нужно сделать, так это классифицировать каждый заголовок по смартфону или не по смартфону , в зависимости от того, продается объявление по мобильному телефону или нет.
Извините, файл не на английском языке, но вот скриншот, показывающий его немного:
полный файл здесь
Проблемы, с которыми я столкнулся:
- Некоторые заголовки объявлений связаны со смартфонами, но на самом деле они продают не телефоны, а что-то связанное с этим (дополнительное). Пример: объявление о продаже чехлов для телефона Iphone X
- У некоторых рекламных заголовков даже нет марки телефона, а есть только модель. Пример: «Белый Xiaomi Mi Mix 2s Global 64 ГБ» или «J7 Pro 64 ГБ 4G J730».
Было бы идеально, если бы был способ извлечь точную модель телефона из заголовка, но, поскольку каждый заголовок объявления отформатирован по-разному, я не смог найти способ сделать это.
Обычно бренды производят разнообразную продукцию, а смартфоны являются лишь одним из видов продукции. Поэтому, когда я фильтрую по названию бренда, он часто возвращает мне рекламу, которая вообще не связана со смартфонами (планшеты, телевизоры, зарядные устройства и т. Д.). Потребуется дополнительная фильтрация
- Несмотря на то, что мне разрешено использовать его, я не смог найти какую-либо БД со списком всех моделей смартфонов или не знаю, как получить с них информацию.
То, что я до сих пор думал:
Если бы у меня был доступ к базе данных с большим количеством моделей смартфонов, я мог бы напрямую искать файл по названию каждой модели (например, «Iphone 5s» или «Moto G6»).
Я пытался использовать FonoAPI https://fonoapi.freshpixl.com (который представляет собой базу данных смартфонов для просмотра данных о телефонах с использованием java, php и т. Д.) Для поиска моделей смартфонов определенного бренда, но API будет только вернуть максимум 100 результатов за раз. Поэтому, чтобы использовать его, мне нужно извлечь название модели продукта из названия, чтобы я мог проверить, есть ли оно в списке FonoAPI DB
Так как каждый заголовок объявления в файле по-разному форматируется, я ищу некоторые идеи, как это сделать, потому что я не смог найти способ извлечь модель продукта из заголовка для сравнения с базой данных FonoAPI, ни получить доступ к большой БД, содержащей огромное количество моделей, чтобы непосредственно искать их в файле.