扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:中国IT实验室 来源:中国IT实验室 2007年8月23日
关键字:
切词一般有最大匹配法(MM、RMM),基于规则的方法,基于统计的方法。关于前两者就不罗嗦了。所谓全切分就是要根据字典得到所以可能的切分形式。歧义识别的方法主要有:基于规则的方法和基于统计的方法。这里当然是采用基于2-gram统计模型的方法了:)为了避免切分后再进行歧义分析的时间浪费。并且这里采用边切分边评价的方法,即在切分进行的同时进行评价的方法。
对一个句子进行全切分的结果,即所以可能的组合,可以形成一棵解空间树
于是,可用回溯法搜索最优解
若将所有的全切分组合先搜索出来,然后再根据2-gram选择最佳,显然会很浪费时间,因为过程中可能存在很多的重复搜索,而回溯搜索的时间复杂度为指数时间
所以,在搜索过程中要结合 剪枝,避免无效搜索,可很大提高效率
采用树的深度优先法则。可找到最优解
具体算法如下:
Stack.push(BOS) //树节点 while stack不为空 x=stack.pop() pos:=x.Pos, w = x.w oldvalue:= x.value preword:=x.preword if m>O then //m为首词串的个数 forj:=1 to m do FWj为fwc的第j个元素l if length(w+FWj) =length(c)且概率最大 then output w+FWjl且设置最新的句子最大概率值 else posl:=pos+length(FWj)l if probability(w+FWj,posl,newsate)>maxValue(pos1) stack.push(x) endif endfor endif endwhile end.
在算法实现过程中需要考虑一些诸如树节点保存,首词串处理等问题。
4.评估测试
环境:windows XP2, AMD Athlon 1800+, Memory 768m,JDK1.5
Delta平滑:随着delta的取值变小,准确率上升,0.5,0.01,0.0001
召回率:<SPAN lang=EN-US style="CO
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者