Нужно ли снимать скобки для токенизации? RegexpTokenizer - PullRequest
0 голосов
/ 17 апреля 2020

Первая попытка токенизации с использованием RegexpTokenizer от nltk для назначения (обязательно). Не уверены, стоит ли мне снимать скобки?

Вам необходимо извлечь токен и добавить их в список 'token'

... не уверен, что я даже сделал это правильно.

import re
import nltk
from nltk.tokenize import RegexpTokenizer
from nltk.probability import *
from itertools import chain
from tqdm import tqdm
import codecs
from nltk.corpus import stopwords 
nltk.download('stopwords')

df_text = pd.read_csv(r"C:\Users\User\Downloads\JobPostings.csv")

lower = []
for item in df_text['job_description']:
    lower = [item]
    lower.append(item.lower())

tokenizer_test = RegexpTokenizer(r"\s+", gaps=True)
tokens_test = tokenizer_test.tokenize(item)

token = [tokens_test]
print(token)

Вывод:

[['Data', 'Scientist,', '(Staff', 'или', 'Principal)', 'at' , 'realtor.com', '(View', 'all', 'jobs)', 'Santa', 'Clara,', 'CA', 'At', 'realtor.com,', 'we', ' process ',' terabytes ',' of ',' data ',' each ',' day ',' and ',' transform ',' that ',' data ',' в ',' information ',' that ' , «полномочия», «решения», «для», «миллионы», «из», «покупатели жилья», «съемщики», «мечтатели», «и», «реальный», «недвижимость», «профессионалы» . ',' Мы ',' цель ',' к ',' радикально ',' упрощено ',' дом ',' покупка / продажа ',' и ',' помощь ',' больше ',' люди ',' достижения ",", "американский", "мечта", "на", "наш", "realtor.com", "веб-сайт", "и", "мобильный", "приложения.", "Мы", «искать», «а», «высоко», «опытный», «данные», «ученый», «к», «присоединиться», «наши», «данные», «наука», «программа», «и ',' помощь ',' развивать ',' это ',' к ',' его ',' полный ',' потенциал. ',' как ',' a ',' ключ ',' член ',' of ',' the ',' data ',' science ',' team, ',' you ',' будет ',' будет ',' ответственным ',' за ',' the ',' development ',' of ',' инновационным ',' концепциям ',' исследованиям ',' прогнозированию ',' моделированию , ',' и ',' машина ',' обучение ',' алгоритмы. ',' Обязанности: ',' Выполнить ',' исследовать ',' анализ ',' on ',' realtor.com's ',' wealth ' , 'of', 'data', 'включая', 'потребитель', 'сеть', 'и', 'мобильный телефон', 'поведение', 'и', 'север', 'Америка', 'большинство', ' всесторонний ',' и ',' актуальный ',' списки ',' и ',' свойства ',' данные ',' набор. ',' эффективно ',' партнер ',' с ',' продуктом ',' и ',' инженерия ',' команды ',' to ',' build ',' new ',' data-based ',' и ',' machine ',' based-based ',' functions ', «in», «our», «professional», «software», «and», «lead», «монетизация», «products», «to», «enable», «real», «state», «professional» ',' до ',' быть ',' больше ',' продуктивно ',' и ',' эффективно ',' in ',' обслуживание ',' the ',' needs ',' of ',' home ', «покупатели», «помощь», «улучшить», « »,« область »,« наш »,« данные »,« наборы »,« по »,« определение »,« новые »,« данные »,« сбор »,« и »,« закупки »,« возможности », «на», «an», «постоянный», «базовый», «привод», «A / B», «многомерный», «тесты», «и», «дизайн», «из», «эксперименты» , 'to', 'облегчить', 'тестирование', 'of', 'new', 'product', 'и', 'design', 'features,', 'with', 'a', 'focus', «на», «улучшение», «вовлечение», «удержание», «и», «преобразование», «выбор», «применение», «и», «настройка», «а», « разнообразный »,« набор »,« of »,« инструменты »,« to »,« связно »,« решить »,« вызов »,« бизнес »,« цели »,« создать »,« автоматизировать »,« обучение » , «системы», «то», «изящно», «масштаб», «до», «возрастание», «сложность», «и», «ожидание», «развитие», «прогнозирование», «объяснение», «модели», «и», «машина», «обучение», «алгоритмы», «генерировать», «описательный», «визуализации», «и», «презентации», «к», «общаться», «идеи» ',' Наставник ',' a ',' команда ',' of ',' data ',' scholar ',' on ',' data ',' разведка ',' machine ',' learning ',' и ' 'Девелопмент ping ',' на основе данных ',' products ',' Work ',' with ',' a ',' смысл ',' of ',' владение ',' и ',' срочность ',' адвокат ', «для», «экспериментирование», «на основе», «agile», «культура», «требования:», «MS», «или», «кандидат наук», «в», «статистика» , ',' математика ',' операции ',' исследование ',' компьютер ',' наука ',' количественный ',' анализ ',' экономика ',' или ',' связанный ',' область ' , 'необходимо. ',' 7+ ',' Year ',' of ',' релевантный ',' опыт ',' in ',' данные ',' наука ',' данные ',' аналитика ',' или ',' прикладные »,« статистика »,« опыт »,« с »,« машина »,« обучение »,« НЛП »,« данные »,« майнинг »,« статистика »,« моделирование »,« инструменты, ',' и ',' лежащие в основе ',' алгоритмы ',' опытные ',' in ',' R, ',' Perl, ',' Python, ',' Spark, ',' или ', «другие», «языки», «и», «рамки», «подходящие», «для», «большие», «масштабные», «анализ», «of», «числовые», «текстовые», «изображение», «и», «видео», «данные», «сильный», «навыки», «в», «данные», «сбор», «массирование», «и», «подделка», «Работа», «опыт», «с», «реляционные», «базы данных», «и», «SQL», «опыт», «с», «эксперимент», «дизайн», «и», «A / B», «и», «многомерный», «тесты», «опыт», «и», «проверенный», «отслеживание», «запись», «разработка», «онлайн», «данные», «продукты», «сильный», «творческий», «мышление», «и», «решение проблем», «навыки», «отлично», «устный», «и», «письменный», «общение», 'и', 'презентация', 's kills ']]

edit: пробовал вместо этого ... мысли?

df_text_jd = df_text.job_description

lower = []
for item in df_text_jd:
    lower.append(item.lower().replace('(','').replace(')',''))

l = []  
for token in item:
    tokenizer_test = RegexpTokenizer(r'\s+', gaps=True)
    token = tokenizer_test.tokenize(item)

    l.append(token)

l

1 Ответ

0 голосов
/ 17 апреля 2020

Вы можете заменить скобки, изменив строку, в которую вы добавляете строчный элемент в нижний список:

lower.append(item.lower().replace('(','').replace(')',''))
...