модуль Python для удаления интернет-жаргон / сленг / аббревиатура - PullRequest
4 голосов
/ 14 декабря 2011

Существует ли какой-либо модуль python (может быть, в nltk python) для удаления сленга в Интернете / сленга чата, например "lol", "brb" и т. Д. Если нет, то кто-нибудь может предоставить мне файл CSV, состоящий из такого обширного списка сленга?

На сайте http://www.netlingo.com/acronyms.php приведен список сокращений, но я не могу найти какие-либо CSV-файлы для их использования в моей программе.

Ответы [ 2 ]

2 голосов
/ 05 июля 2018

код в утиль http://www.netlingo.com/acronyms.php

from bs4 import BeautifulSoup
import requests, json
resp = requests.get(http://www.netlingo.com/acronyms.php)
soup = BeautifulSoup(resp.text, "html.parser")
slangdict= {}
key=""
value=""
for div in soup.findAll('div', attrs={'class':'list_box3'}):
for li in div.findAll('li'):
   for a in li.findAll('a'):
       key =a.text
   value = li.text.split(key)[1]
   slangdict[key]=value
with open('/home/chandresh/ckm/data/slang/myslang.json', 'w') as fid:
json.dump(slangdict,find,indent=2)
1 голос
/ 14 декабря 2011
...