Question

У меня есть фрейм данных, в котором есть столбец с URL-ссылками. Может кто-нибудь сказать мне, как обрабатывать эти ссылки при предварительной обработке данных в НЛП? Например, столбец df выглядит так:

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

Нужно ли полностью удалять эти URL-ссылки или есть другой способ с ними справиться?

J_H · Answer 1 · 30 марта 2019

Отфильтруйте URL-адреса, поскольку они не являются естественным языком.Не должно быть слишком сложно написать такой предикат, возможно, будет достаточно чего-то простого, например, str(word).startswith('http').Или используйте регулярное выражение:

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]

Как обрабатывать URL-ссылки в текстовых данных при предварительной обработке данных в НЛП

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обрабатывать URL-ссылки в текстовых данных при предварительной обработке данных в НЛП

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы