fasttext get Wrong Number of Labels 0 - PullRequest
       37

fasttext get Wrong Number of Labels 0

0 голосов
/ 29 апреля 2020

когда я запускаю fasttext.train_supervised, я нахожу результат следующим образом:

Read 1M words
Number of words:  644123
Number of labels: 0

моя функция обработки данных:

def to_txt(dataframePath, savePath, stop_words):
    print(f"=====process {dataframePath[len(absPath)+1:]}=====")
    data = pd.read_csv(dataframePath, nrows=50)
    data_set = []
    for title, target in zip(data.iloc[:, 0], data.iloc[:, 1]):
        seg = " ".join([i for i in jieba.cut(title) if i.strip() and i not in stop_words])
        sub_list = [f"__label__{target},{seg}"]
        data_set.extend(sub_list)
    with open(savePath, "w", encoding="utf-8") as f:
        for d in data_set:
            f.write(d)
            f.write("\n")
    f.close()
    print("finish")

мои данные имеют вид:

__label__财经,世界 VR 产业 大会 签约 项目 总金额 超 亿元 图
__label__财经,发改委 不提 收入 分配制度 改革
__label__社会,男友 打 不算 家暴 女 打 男 叫 家教 网友 反应 亮
__label__财经,世界 互联网 大会 首次 发布 项 世界 互联网 领先 科技成果
__label__国内,中方 上海 合作 组织 反 极端主义 公约 突显 打击 三股 势力 决心
__label__社会,小新 探春 安徽 黄山 梅花 玉兰花 竞相 开放 春意盎然
__label__国内,把握 认定 交通肇事 逃逸

кто-нибудь знает, что происходит? Спасибо

1 Ответ

0 голосов
/ 29 апреля 2020

Как объяснено здесь ( Какой правильный формат для метки для мульти-метки в быстром тексте? ), правильный формат для обучающих данных:

__ label__LABELNAME, это предложение

метка и предложение разделяются пробелом, а не запятой.

...