至顶网›软件频道 ›搜索引擎之中文分词实现（java版）

搜索引擎之中文分词实现（java版）

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

最近对搜索相关技术产生了浓厚兴趣，前段时间做了个基于统计语言模型的中文切分系统的课程作业，于是乎，帖出来与大家共同学习。

作者：云天来源：CSDN 2008年3月3日

回归项目：）训练语料一共有5万多个不同的词。建立2-gram统计模型时不断要把每个词在训练语料中出现频率统计出来，还要把每个词及其后面的那个词组成的2- gram在训练语料中出现频率统计出来。因为在切分时会频繁的在建立的2-gram模型中查找相关的数据，所有，存储这个2-gram模型数据的数据结构一定要能提供高效的查找。故选择hash表，它能提供常数时间的查找。Java类库里提供了HashMap类，基于数据两还不是非常大，故可直接拿来用。在存储时，每一个key值对应一个在训练语料中出现过的词语，而每一个key值对应的value值又是一个HashMap。暂且称为子hashmap.这个结构有点类似文件结构里的二级索引。其相关代码如下：

怎么在预处理文件里把词分别读出来就不罗嗦了，方法：每读入一行，按空格分成String数组，用个正则表达式匹配下即能得到。

//此方法传入的两个词组成一个2-gram，prewd为前一个词,currwd为紧随其后的词

public static void add(String prewd , String currwd){

String key = prewd;

String curr = currwd;

boolean bb = HMap.containsKey(key); //Hmap是一个已存在的HashMap，用来存储2-gram统计模型。在这里判断 preword 是否在主map 中

if (bb == false) { //若主map 中无，则添加

HashMap hm = new HashMap(); //首先，新构造一个子MAP

hm.put(key , new Integer(1)); //存储主KEY 的频率 hm.put(curr , new Integer(1)); //存储主KEY 后面紧接着的那个词频率

HMap.put(key,hm); //将主KEY 和对应的子MAP 放入主MAP 中

}

else //若主map 中含有该词

{

HashMap temp = (HashMap)HMap.get(key); //返回主KEY 所对应的子MAP ，进行值的修改

int count = ((Integer)temp.get(key)).intValue() + 1; //在子map 中将主key 次数加 1

temp.put(key , new Integer(count));

if (temp.containsKey(curr)) //判断子map 中是否含有该词

{

int value = ((Integer)temp.get(curr)).intValue() + 1; temp.put(curr , new Integer(value));

}

else

temp.put(curr, new Integer(1)); //若无，则将其存入子map

HMap.put(key , temp); //子map 修改完毕，将其重新放入主map

}

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

搜索引擎之中文分词实现（java版）

业界热点: