sewm20xx分类系统说明内容摘要:

分词  采用哈工大分词程序  增加部分停用词,词汇数量达到 2040个 2020/11/4 8 特征提取 ( 1)  CHI  分别计算词条与个各类别的 CHI值,取最大值作为该词项的 CHI值  ECE(期望交叉熵)  是一种基于概率的方法,交叉熵越大,对文本类别分布的影响越大  CHI+DF  使用 DF移除低于一定阈值低频词, 消除 CHI对低频词的倚重,再用 CHI从剩余词条中移除类别信息较低的噪音词,这样的词条通常平均分布于各个类别 2020/11/4 9 特征提取 ( 2) CHI ECH CHI+DF recall precision C=2 g= C=8 g= C=64 g=。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。