科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道搜索引擎之中文分词实现(java版)

搜索引擎之中文分词实现(java版)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

最近对搜索相关技术产生了浓厚兴趣,前段时间做了个基于统计语言模型的中文切分系统的课程作业,于是乎,帖出来与大家共同学习。

作者:云天 来源:CSDN 2008年3月3日

关键字: java 中文分词 搜索引擎

  • 评论
  • 分享微博
  • 分享邮件

在本页阅读全文(共4页)

4.评估测试

环境:windows XP2, AMD Athlon 1800+, Memory 768mJDK1.5

Delta平滑:随着delta的取值变小,准确率上升,0.50.010.0001

召回率: 0.9756     0.9826         0.9928

准确率: 0.9638     0.9710         0.9883

留存平滑

召回率:        0.9946

准确率:        0.9902

一般情况下,留存平滑应该还是比delta平滑更好

所有建模过程及平滑过程在1分钟内都可完成。

切分时间与效率:

<!--[if !supportLists]-->n       <!--[endif]-->测试语料,17455字符, (中文17287),平均句长 41个字,时间 340ms,  平均切分速度:5.1 /S

<!--[if !supportLists]-->n       <!--[endif]-->20.5万测试语料(取自笑傲江湖), 预处理后 17.46 ,时间 110 MS,句子文本行数目 24945,平均句长 7   切分时间 1300MS 平均13.46 /  

<!--[if !supportLists]-->n       <!--[endif]-->20.5万测试语料(取自笑傲江湖),不预处理,平均句长 239 ,切分时间40S 平均 5000/

回溯算法是时间开销为O(N!),所以在切分过程中句子长度直接决定了切分的速度,因为句子越长词越多

经过预处理,句子短,平均句长 7, 回溯短,故速度要快很多。

到此,该系统基本完成,告一段落。感觉写的挺乱的呵呵

现在在做另一个作业,做个简单搜索引擎,准备把这个东东结合在搜索引擎里面,实现切分功能:)

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章