У меня есть функция, которая просматривает твиты и извлекает только популярные хэштеги и дескрипторы.Проблема в том, что у меня большой набор данных, и это занимает 10 или более минут, чтобы закончить.Я ищу способ "векторизовать" эту функцию, чтобы она работала быстрее.
У меня уже есть список популярных хэштегов
def get_popular_hashes(myString):
myList = myString.split(' ')
newStr = ''
for x in myList:
if x in popular_tags_list:
newStr+=' '+x
return newStr
tweets2["popularHandles"] = tweets2.HashesAndHandles.apply(get_popular_hashes)
Если я смогу найти способ сделатьэто без .apply()
, это даже лучше.
Например:
["I'm hungry. let's eat! #curlyfries @jackinthebox",
"I got a 4.0 last semester! #scholarship #hardwork #stackoverflow"]
может превратиться в:
["@jackinthebox",
"#stackoverflow"
]
Большое спасибо вам, ребята!