扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
在本页阅读全文(共4页)
4.评估测试
环境:windows XP2, AMD Athlon 1800+, Memory 768m,JDK1.5
Delta平滑:随着delta的取值变小,准确率上升,0.5,0.01,0.0001
召回率: 0.9756 0.9826 0.9928
准确率: 0.9638 0.9710 0.9883
留存平滑
召回率: 0.9946
准确率: 0.9902
一般情况下,留存平滑应该还是比delta平滑更好所有建模过程及平滑过程在1分钟内都可完成。
切分时间与效率:
<!--[if !supportLists]-->n <!--[endif]-->测试语料,17455字符, (中文17287),平均句长 41个字,时间 :340ms, 平均切分速度:5.1 万/S
<!--[if !supportLists]-->n <!--[endif]-->20.5万测试语料(取自笑傲江湖), 预处理后 17.46万 ,时间 110 MS,句子文本行数目 24945,平均句长 7 , 切分时间 1300MS , 平均13.46 万 / 秒
<!--[if !supportLists]-->n <!--[endif]-->20.5万测试语料(取自笑傲江湖),不预处理,平均句长 239 ,切分时间40S, 平均 5000字/秒
回溯算法是时间开销为O(N!),所以在切分过程中句子长度直接决定了切分的速度,因为句子越长词越多
经过预处理,句子短,平均句长 7, 回溯短,故速度要快很多。
到此,该系统基本完成,告一段落。感觉写的挺乱的呵呵
现在在做另一个作业,做个简单搜索引擎,准备把这个东东结合在搜索引擎里面,实现切分功能:)
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。
现场直击|2021世界人工智能大会
直击5G创新地带,就在2021MWC上海
5G已至 转型当时——服务提供商如何把握转型的绝佳时机
寻找自己的Flag
华为开发者大会2020(Cloud)- 科技行者