至顶网›软件频道 ›定义Lucene 1.3 用到的索引文件格式

定义Lucene 1.3 用到的索引文件格式

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

　　Jakarta Lucene是用Java写成的，同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容，就需要一个与具体语言无关的Lucene索引文件格式。

作者：中国IT实验室来源：中国IT实验室 2007年9月25日

　　Jakarta Lucene是用Java写成的，同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容，就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。
　　
　　随着Lucene不断发展，本文也应该更新。不同语言写成的Lucene实现版本应当尽力遵守文件格式，也必须产生本文的新版本。
　　
　　本文同时提供兼容性批注，描述文件格式上与前一版本不同的地方。
　　
　　定义
　　Lucene中最基础的概念是索引（index），文档（document．，域（field）和项（term）。
　　
　　索引包含了一个文档的序列。
　　
　　?　文档是一些域的序列。
　　
　　?　域是一些项的序列。
　　
　　?　项就是一个字串。
　　
　　存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的，第一个字串是域名，第二个是域中的字串。
　　
　　倒排索引
　　为了使得基于项的搜索更有效率，索引中项是静态存储的。Lucene的索引属于索引方式中的倒排索引，因为对于一个项这种索引可以列出包含它的文档。这刚好是文档与项自然联系的倒置。
　　
　　域的类型
　　Lucene中，域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。
　　
　　域的文本可能被分解许多项目而被索引，或者就被用作一个项目而被索引。大多数的域是被分解过的，但是有些时候某些标识符域被当做一个项目索引是很有用的。
　　
　　段（Segment）
　　Lucene索引可能由多个子索引组成，这些子索引成为段。每一段都是完整独立的索引，能被搜索。索引是这样作成的：
　　
　　1.　　为新加入的文档创建新段。
　　
　　2.　　合并已经存在的段。
　　
　　搜索时需要涉及到多个段和/或者多个索引，每一个索引又可能由一些段组成。
　　
　　文档号（document．nbspNumber）
　　内部的来说，Lucene用一个整形（interger）的文档号来指示文档。第一个被加入到索引中的文档就是0号，顺序加入的文档将得到一个由前一个号码递增而来的号码。
　　
　　注意文档号是可能改变的，所以在Lucene外部存储这些号码时必须小心。特别的，号码的改变的情况如下：
　　
　　?　只有段内的号码是相同的，不同段之间不同，因而在一个比段广泛的上下文环境中使用这些号码时，就必须改变它们。标准的技术是根据每一段号码多少为每一段分配一个段号。将段内文档号转换到段外时，加上段号。将某段外的文档号转换到段内时，根据每段中可能的转换后号码范围来判断文档属于那一段，并减调这一段的段号。例如有两个含5个文档的段合并，那么第一段的段号就是0，第二段段号5。第二段中的第三个文档，在段外的号码就是8。
　　
　　?　文档删除后，连续的号码就出现了间断。这可以通过合并索引来解决，段合并时删除的文档相应也删掉了，新合并而成的段并没有号码间断。
　　
　　绪论
　　索引段维护着以下的信息：
　　
　　?　域集合。包含了索引中用到的所有的域。
　　
　　?　域值存储表。每一个文档都含有一个“属性－值”对的列表，属性即为域名。这个列表用来存储文档的一些附加信息，如标题，url或者访问数据库的一个ID。在搜索时存储域的集合可以被返回。这个表以文档号标识。
　　
　　?　项字典。这个字典含有所有文档的所有域中使用过的的项，同时含有使用过它的文档的文档号，以及指向使用频数信息和位置信息的指针。
　　
　　?　项频数信息。对于项字典中的每个项，这些信息包含含有这个项的文档的总数，以及每个文档中使用的次数。
　　
　　?　项位置信息。对于项字典中的每个项，都存有在每个文档中出现的各个位置。
　　
　　?　 Normalization factors. For each field in each document． a value is stored that is multiplied into the score for hits on that field. 标准化因子。对于文档中的每一个域，存有一个值，用来以后乘以这个这个域的命中数（hits）。
　　
　　?　被删除的文档信息。这是一个可选文件，用来表明那些文档已经删除了。
　　
　　接下来的各部分部分详细描述这些信息。
　　
　　文件的命名（File Naming）
　　同属于一个段的文件拥有相同的文件名，不同的扩展名。扩展名由以下讨论的各种文件格式确定。
　　
　　一般来说，一个索引存放一个目录，其所有段都存放在这个目录里，尽管我们不要求您这样做。
　　
　　基本数据类型（Primitive Types）
　　Byte
　　
　　最基本的数据类型就是字节（byte，8位）。文件就是按字节顺序访问的。其它的一些数据类型也定义为字节的序列，文件的格式具有字节意义上的独立性。
　　
　　UInt32
　　
　　32位无符号整数，由四个字节组成，高位优先。
　　
　　UInt32 --> <Byte>4
　　
　　Uint64
　　
　　64位无符号整数，由八字节组成，高位优先。
　　
　　UInt64 --> <Byte>8
　　
　　VInt
　　
　　可变长的正整数类型，每字节的最高位表明还剩多少字节。每字节的低七位表明整数的值。因此单字节的值从0到127，两字节值从128到16,383，等等。
　　
　　VInt 编码示例
　　value
　　 First byte
　　 Second byte
　　 Third byte
　　
　　0
　　 00000000
　　　
　　1
　　 00000001
　　　
　　2
　　 00000010
　　
　　...
　　　
　　127
　　 01111111
　　　
　　128
　　 10000000
　　 00000001
　　
　　129
　　 10000001
　　 00000001
　　
　　130
　　 10000010
　　 00000001
　　 ...
　　16,383
　　 11111111
　　 01111111
　　
　　16,384
　　 10000000
　　 10000000
　　 00000001
　　
　　16,385
　　 10000001
　　 10000000
　　 00000001
　　...
　　　
　　这种编码提供了一种在高效率解码时压缩数据的方法。
　　
　　Chars
　　
　　Lucene输出UNICODE字符序列，使用标准UTF-8编码。
　　
　　String
　　
　　Lucene输出由VINT和字符串组成的字串，VINT表示字串长，字符串紧接其后。
　　
　　String --> VInt, Chars
　　
　　索引包含的文件（Per-Index Files）
　　这部分介绍每个索引包含的文件。
　　
　　Segments文件
　　索引中活动的段存储在Segments文件中。每个索引只能含有一个这样的文件，名为"segments".这个文件依次列出每个段的名字和每个段的大小。
　　
　　Segments --> SegCount, <SegName, SegSize>SegCount
　　
　　SegCount, SegSize --> UInt32
　　
　　SegName --> String
　　
　　SegName表示该segment的名字，同时作为索引其他文件的前缀。
　　
　　SegSize是段索引中含有的文档数。
　　
　　Lock文件
　　有一些文件用来表示另一个进程在使用索引。
　　
　　?　如果存在"commit.lock"文件，表示有进程在写"segments"文件和删除无用的段索引文件，或者表示有进程在读"segments"文件和打开某些段的文件。在一个进程在读取"segments"文件段信息后，还没来得及打开所有该段的文件前，这个Lock文件可以防止另一个进程删除这些文件。
　　
　　?　如果存在"index.lock"文件，表示有进程在向索引中加入文档，或者是从索引中删除文档。这个文件防止很多文件同时修改一个索引。
　　
　　Deleteable文件
　　名为"deletetable"的文件包含了索引不再使用的文件的名字，这些文件可能并没有被实际的删除。这种情况只存在与Win32平台下，因为Win32下文件仍打开时并不能删除。
　　
　　Deleteable --> DelableCount, <DelableName>DelableCount
　　
　　DelableCount --> UInt32
　　
　　DelableName --> String
　　
　　段包含的文件（Per-Segment Files）
　　剩下的文件是每段中包含的文件，因此由后缀来区分。
　　
　　域（Field）
　　
　　域集合信息（Field Info）
　　
　　所有域名都存储在这个文件的域集合信息中，这个文件以后缀.fnm结尾。
　　
　　FieldInfos (.fnm) --> FieldsCount, <FieldName, FieldBits>FieldsCount
　　
　　FieldsCount --> VInt
　　
　　FieldName --> String
　　
　　FieldBits --> Byte
　　
　　目前情况下，FieldBits只有使用低位，对于已索引的域值为1，对未索引的域值为0。
　　
　　文件中的域根据它们的次序编号。因此域0是文件中的第一个域，域1是接下来的，等等。这个和文档号的编号方式相同。
　　
　　域值存储表（Stored Fields）
　　
　　域值存储表使用两个文件表示：
　　
　　1.　　域索引（.fdx文件）。
　　
　　如下，对于每个文档这个文件包含指向域值的指针：
　　
　　FieldIndex (.fdx) --> <FieldvaluesPosition>SegSize
　　
　　FieldvaluesPosition --> Uint64
　　
　　FieldvaluesPosition指示的是某一文档的某域的域值在域值文件中的位置。因为域值文件含有定长的数据信息，因而很容易随机访问。在域值文件中，文档n的域值信息就存在n*8

查看本文来源

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

业界热点:

数字化转型东数西算自动驾驶智能制造云计算元宇宙虚拟人物联网算力网络数字孪生人工智能区块链开源大数据