как построить корпус с отсечкой для неизвестных жетонов - PullRequest
0 голосов
/ 08 декабря 2018

Пример данных (place_aggregated_listings):

    floor   rooms   expenses    price_aprox_local_currency  days_on_market  titles  descriptions
place_with_parent_names                             
|México|Aguascalientes|Aguascalientes|  2.706536    3.031245    561.821473  2.137250e+06    95.470769   Casa en Venta en Aguascalientes Casa en Venta ...   Casa en venta en Trojes de Oriente I. 4 habita...
|México|Aguascalientes|Jesús María|     1.684537    3.030995    500.000000  1.717322e+06    107.571429  Casa en Venta en Jesús María Casa en Venta en ...   Casa en venta en RESIDENCIAL LA VILLA JESUS MA...
|México|Baja California|Mexicali|   1.480033    1.891953    345.234334  2.057698e+06    97.256451   VENDO CASA FRACC. VISTAHERMOSA 3R Casa en Vent...   BONITA CASA EN ESQUINAPLANTA BAJA:COCHERA 2 AU...
|México|Baja California|Mexicali|Mexicali|Residencial Barcelona|    1.000000    3.000000    300.000000  5.446771e+05    102.666667  Casa en Venta en Mexicali CASA DE UNA PLANTA T...   Casa en venta en Residencial Barcelona. 3 habi...
|México|Baja California|Tijuana|    2.023858    2.632041    551.287875  1.835643e+06    99.550610   Casa en Venta en Tijuana Casa en Venta en Tiju...   Casa en venta en Hipodromo. 3 habitaciones, 2 ...

Здесь я читаю в CSV данные НЛП:

place_aggregated_listings[['titles', 'descriptions']].to_csv(r'./place_aggregated_listings.txt', header=None, index=None, sep=' ', mode='a' )

и затем загружаю как объект корпуса:

corpus = nltk.corpus.reader.plaintext.PlaintextCorpusReader(root='./', fileids='place_aggregated_listings.txt')

Это становится невозможным разделить на тестовые и обучающие предложения (у меня большой размер машины GCP и большой корпус).У меня есть служебная функция, которая принимает объект корпуса для этого, и я хочу заменить все слова, у которых ниже определенного количества (скажем, n = 10000), токеном UNK, чтобы ускорить этот процесс.Как я могу построить такой корпус или изменить свой текущий для такого использования?

...