首页

基于Helmholtz原理的中文新词识别 10月09日

【摘要】在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。常用的语言知识特征有前后缀、串长,统计特征有词频、互信息、左熵、右熵、色子矩阵(Dice)。新词,为何新?“新”可以跟时间对比,在某个时间点之前新词从未出现过,这个时间点后新词出现了,并被人们广泛使用,但新词出现的这个时间点很模糊,无法具体界定。针对新词时间分布特性难以描 […]