在 C 和 C++ 中,读取二进制文件还是很容易的。除了一些开始符(carriage return)和结束符(line feed)的问题,每一个读到C/C++中的文件都是二进制文件。事实上,C/C++ 只知道二进制文件,以及如何让二进制文件像文本文件一样。当我们使用的语言越来越抽象时,我们最后使用的语言就不能直接、容易的读取创建的文件了。这些语言想要用它们自己独特的方式来自动处理输出数据。
在许多计算机科学领域,C 和 C++ 仍旧直接依照数据结构来储存和读取数据。在C和C++中,依照内存中的数据结构来读取和写文件,是十分简单的。在C中,你只需要使用fwrite()函数,并提供下列参数:一个指向你的数据的指针,告诉它有多少个数据,一个数据有多大。这样,就直接用二进制格式把数据写成文件了。
如上所述的那样把数据写成文件,同时如果你也知道其正确的数据结构的话,那么也就意味着读取文件也很容易。你只要使用 fread() 函数,并提供下列参数:一个文件句柄,一个指向数据的指针,读取多少个数据,每一个数据的长度。 fread() 函数帮你把其余的事都做了。突然,数据又回到了内存中。没有采用解析以及也没有对象模型的方式,它只是把文件直接的读到内存中。
在C和C++中,最大的两个问题就是数据对齐(structure alignment)和字节交换(byte swapping)。数据对齐指的是有时编译器会跳过数据中间的字节,因为如果处理器访问到那些字节,就不再处于最优化状态下了,要花费更多的时间(一般情况,处理器访问未对齐数据花费的时间是访问对齐数据的两倍),花费更多的指令。因此,编译器要为了执行速度而进行优化,跳过了那些字节并重新进行排序。另一方面,字节交换指的是:由于不同处理器对字节排序的方式不同,需要对数据的字节重新排序的过程。
因为处理器能够一次处理更多的信息(在一个时钟周期内),所以它们希望它们所处理的信息能以一种确定的方式排列。大多数的 Intel 处理器使整数类型(32位的)的储存首地址能被4除尽(即:从能被4除尽的地址上开始储存)。如果内存中的整数不是储存在4的倍数的地址上的话,它们是不会工作的。编译器知道这些。因此当编译器遇到一个可能引起这种问题的数据时,它们就有下面三种选择。
第一种,它们可以选择在数据中添加一些无用的白空格符,这样可以使整数的开始地址能被4除尽。这是一种最普遍的做法。第二种,它们可以对字段重新排序,以便使整数处于4位的边界上。因为这样会造成其它有趣的问题,因此,这种方式较少使用。第三种选择是,允许数据中的整数不处于4位的边界上,但是把代码复制到一个合适的地方从而使那些整数处于4位的边界上。这种方式需要一些额外的时间花费,但是,如果必须压缩的话,那么它就很有用了。
以上所说的这些大都是编译器的细节问题,你用不着过多的担心。如果你对写数据的程序和读数据的程序使用同样的编译器,同样的设定,那么,这些就不成其为问题了。编译器用同样的方法来处理同样的数据,一切都OK。但是当你涉及到跨平台文件转换问题时,用正确的方式来排列所有数据就显得很重要了,这样才能保证信息能被转换。另外,一些程序员还了解怎样让编译器不用理睬他们的数据。