Как обрабатывать URL-ссылки в текстовых данных при предварительной обработке данных в НЛП - PullRequest
1 голос
/ 29 марта 2019

У меня есть фрейм данных, в котором есть столбец с URL-ссылками. Может кто-нибудь сказать мне, как обрабатывать эти ссылки при предварительной обработке данных в НЛП? Например, столбец df выглядит так:

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

Нужно ли полностью удалять эти URL-ссылки или есть другой способ с ними справиться?

1 Ответ

1 голос
/ 30 марта 2019

Отфильтруйте URL-адреса, поскольку они не являются естественным языком.Не должно быть слишком сложно написать такой предикат, возможно, будет достаточно чего-то простого, например, str(word).startswith('http').Или используйте регулярное выражение:

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...