когда я запускаю fasttext.train_supervised, я нахожу результат следующим образом:
Read 1M words
Number of words: 644123
Number of labels: 0
моя функция обработки данных:
def to_txt(dataframePath, savePath, stop_words):
print(f"=====process {dataframePath[len(absPath)+1:]}=====")
data = pd.read_csv(dataframePath, nrows=50)
data_set = []
for title, target in zip(data.iloc[:, 0], data.iloc[:, 1]):
seg = " ".join([i for i in jieba.cut(title) if i.strip() and i not in stop_words])
sub_list = [f"__label__{target},{seg}"]
data_set.extend(sub_list)
with open(savePath, "w", encoding="utf-8") as f:
for d in data_set:
f.write(d)
f.write("\n")
f.close()
print("finish")
мои данные имеют вид:
__label__财经,世界 VR 产业 大会 签约 项目 总金额 超 亿元 图
__label__财经,发改委 不提 收入 分配制度 改革
__label__社会,男友 打 不算 家暴 女 打 男 叫 家教 网友 反应 亮
__label__财经,世界 互联网 大会 首次 发布 项 世界 互联网 领先 科技成果
__label__国内,中方 上海 合作 组织 反 极端主义 公约 突显 打击 三股 势力 决心
__label__社会,小新 探春 安徽 黄山 梅花 玉兰花 竞相 开放 春意盎然
__label__国内,把握 认定 交通肇事 逃逸
кто-нибудь знает, что происходит? Спасибо