Выберите записи, которые содержат информацию о смартфонах среди других данных - PullRequest
1 голос
/ 05 июля 2019

Я не уверен, как подойти к следующей проблеме, и я ищу некоторые рекомендации:

У меня есть файл, который содержит случайный заголовок объявления в каждой строке. Что мне нужно сделать, так это классифицировать каждый заголовок по смартфону или не по смартфону , в зависимости от того, продается объявление по мобильному телефону или нет.

Извините, файл не на английском языке, но вот скриншот, показывающий его немного: полный файл здесь enter image description here

Проблемы, с которыми я столкнулся:

  • Некоторые заголовки объявлений связаны со смартфонами, но на самом деле они продают не телефоны, а что-то связанное с этим (дополнительное). Пример: объявление о продаже чехлов для телефона Iphone X
  • У некоторых рекламных заголовков даже нет марки телефона, а есть только модель. Пример: «Белый Xiaomi Mi Mix 2s Global 64 ГБ» или «J7 Pro 64 ГБ 4G J730».
  • Было бы идеально, если бы был способ извлечь точную модель телефона из заголовка, но, поскольку каждый заголовок объявления отформатирован по-разному, я не смог найти способ сделать это.

  • Обычно бренды производят разнообразную продукцию, а смартфоны являются лишь одним из видов продукции. Поэтому, когда я фильтрую по названию бренда, он часто возвращает мне рекламу, которая вообще не связана со смартфонами (планшеты, телевизоры, зарядные устройства и т. Д.). Потребуется дополнительная фильтрация

  • Несмотря на то, что мне разрешено использовать его, я не смог найти какую-либо БД со списком всех моделей смартфонов или не знаю, как получить с них информацию.

То, что я до сих пор думал:

  • Если бы у меня был доступ к базе данных с большим количеством моделей смартфонов, я мог бы напрямую искать файл по названию каждой модели (например, «Iphone 5s» или «Moto G6»).

  • Я пытался использовать FonoAPI https://fonoapi.freshpixl.com (который представляет собой базу данных смартфонов для просмотра данных о телефонах с использованием java, php и т. Д.) Для поиска моделей смартфонов определенного бренда, но API будет только вернуть максимум 100 результатов за раз. Поэтому, чтобы использовать его, мне нужно извлечь название модели продукта из названия, чтобы я мог проверить, есть ли оно в списке FonoAPI DB

Так как каждый заголовок объявления в файле по-разному форматируется, я ищу некоторые идеи, как это сделать, потому что я не смог найти способ извлечь модель продукта из заголовка для сравнения с базой данных FonoAPI, ни получить доступ к большой БД, содержащей огромное количество моделей, чтобы непосредственно искать их в файле.

1 Ответ

1 голос
/ 07 июля 2019

Мой ответ не очень точный и больше похож на идеи, которые я хотел предложить (потому что мне нравится эта проблема, и я был бы рад получить файл, кажется, что по вашей ссылке его невозможно получить).

Во-первых, как и все проблемы с НЛП, вам необходимо убедиться, что весь текст отформатирован одинаково.

Чтобы получить базу данных моделей телефонов.Я бы попытался получить базу данных с телефонными брендами.Затем перейдите на веб-сайт продажи, чтобы заняться поиском в Интернете.Таким образом, вы получите много моделей телефонов.

Я бы попробовал использовать какую-нибудь модель НЛП, такую ​​как LDA, но другим форматированным способом (например, убирать слова за пределом после gb и брендов телефонов. Мымогу надеяться, что все телефоны близки к этим словам).

Это могут быть глупые идеи, но я хотел бы поделиться (и я не могу комментировать: D).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...