至顶网›软件频道 ›搜索引擎之中文分词实现（java版）

搜索引擎之中文分词实现（java版）

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

最近对搜索相关技术产生了浓厚兴趣，前段时间做了个基于统计语言模型的中文切分系统的课程作业，于是乎，帖出来与大家共同学习。

作者：云天来源：CSDN 2008年3月3日

关键字：中文分词 java 搜索引擎

在本页阅读全文(共4页)

前几天读到google研究员吴军的数学之美系列篇，颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目，于是乎，帖出来与大家共同学习。

分词技术在搜索引擎，信息提取，机器翻译等领域的重要地位与应用就不敖述了。步入正题：）

一、 项目概述

本切分系统的统计语料是用我们学校自己开放的那部分，大家可以在这里下载，中文字符约184万，当然这都是已切分好了的，可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成：

1、 语料预处理

2、 建立 2-gram（统计二元模型）

3、 实现全切分

4、 评估测试

下面我分别对这四个方面一一道来。

1、 语料预处理

下载的已切分的语料都是形如“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ” ，有的前面还保留了日期编号，因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句，句子简单定义为（。？！：；）这五种标点符号结尾的词串，句子首尾分别添加<BOS>和<EOS>这两个表示句子开始和结束的标记，这在2-gram建模时要用的，后面会提到。处理过程中，忽略词类信息和前面的日期信息，因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式 “<BOS>现实的顿悟却被描出形来。<EOS>” ，当然切分词之间你可以用你想用的符号标记，而不必是空格。因为考虑到所有的英文字符和数字的ASCII，我用了下面方法实现之：

out ; //输出流

in; //输入流

StringBuffer s1 = new StringBuffer(); //缓冲

char a = in.read();

while (a != -1) //判断是否已到流的终点

{

if ((a == '。' || a == '？' || a == '！' || a == '：' || a == '；' )) //一句结束

{

String s2 = new String(s1);

out.write("<BOS>"); //在句子前加 <BOS>

out.write(s2);

out.write("<EOS>"); //在句子末尾加 <EOS>

out.write('/n'); //换行

s1 = new StringBuffer();

}

else if ( a == '/')

s1 = s1.append((char)32); //分词位置空格

else if (a > 256 )

s1 = s1.append((char)a);

a = in.read();

}

out.close();

in.close();

2、 建立 2-gram模型（统计二元模型）

在这里首先简单介绍一下n-gram模型和2-gram模型。

根据语言样本估计出的概率分布P就称为语言L的语言模型。对给定的句子s = w1w2…wn，（数字，n,i都为下标，wi为句子s的一个词）。由链式规则（Chain rule），P(s) = p(w1)p(w2|w1)p(w3|w1w2)……p(wn|w1w2w3…w(n-1)) , 对p(wi|w1w2…w(i-1))而言，(w1w2…w(i-1))即为wi的历史。考虑前面n-1个词构成历史的模型即为n-gram模型。 n越大，提供的语境信息也越多，但代价就越大，且需训练语料多；n较小时，提供的信息比较少，但计算代价小，且无需太多训练语料。

令c (w1,…，wi)表示词串w1,w2…wi在训练语料中出现的次数，则由最大似然估计， P(wn|w1,…,w(n-1)) = c(w1,…，wn) / c(w1,…，w(n-1)). 同理，则2-gram为 P(wn|w(n-1)) = c(w(n-1),wn) / c(w(n-1)).

若想了解更多相关知识，大家找相关资料看看，随便把大学时的那本概率与统计课本拿出来翻翻，数学真是一个好东东：）

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

搜索引擎之中文分词实现（java版）

业界热点: