Пример данных (place_aggregated_listings):
floor rooms expenses price_aprox_local_currency days_on_market titles descriptions
place_with_parent_names
|México|Aguascalientes|Aguascalientes| 2.706536 3.031245 561.821473 2.137250e+06 95.470769 Casa en Venta en Aguascalientes Casa en Venta ... Casa en venta en Trojes de Oriente I. 4 habita...
|México|Aguascalientes|Jesús María| 1.684537 3.030995 500.000000 1.717322e+06 107.571429 Casa en Venta en Jesús María Casa en Venta en ... Casa en venta en RESIDENCIAL LA VILLA JESUS MA...
|México|Baja California|Mexicali| 1.480033 1.891953 345.234334 2.057698e+06 97.256451 VENDO CASA FRACC. VISTAHERMOSA 3R Casa en Vent... BONITA CASA EN ESQUINAPLANTA BAJA:COCHERA 2 AU...
|México|Baja California|Mexicali|Mexicali|Residencial Barcelona| 1.000000 3.000000 300.000000 5.446771e+05 102.666667 Casa en Venta en Mexicali CASA DE UNA PLANTA T... Casa en venta en Residencial Barcelona. 3 habi...
|México|Baja California|Tijuana| 2.023858 2.632041 551.287875 1.835643e+06 99.550610 Casa en Venta en Tijuana Casa en Venta en Tiju... Casa en venta en Hipodromo. 3 habitaciones, 2 ...
Здесь я читаю в CSV данные НЛП:
place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' )
и затем загружаю как объект корпуса:
corpus = nltk.corpus.reader.plaintext.PlaintextCorpusReader(root='./', fileids='place_aggregated_listings.txt')
Это становится невозможным разделить на тестовые и обучающие предложения (у меня большой размер машины GCP и большой корпус).У меня есть служебная функция, которая принимает объект корпуса для этого, и я хочу заменить все слова, у которых ниже определенного количества (скажем, n = 10000), токеном UNK, чтобы ускорить этот процесс.Как я могу построить такой корпус или изменить свой текущий для такого использования?