用 C# 读取二进制文件

ZDNet软件频道　时间：2003-10-08　作者：ZDNet China | 　我要评论()
本文关键词：

用 C# 处理二进制文件的话，就会有另外两项新的挑战。第一项挑战是：所有的 .NET 语言都是强类型的。因此，你不得不从文件中的字节流转换为你所想要的数据类型。第二项挑战就是：一些数据类型比它们表面上要复杂的多，需要某种转换。

当想到所有文件都转换为 XML时，确实是一件好事。但是，这并非事实。仍旧还有大量的文件格式不是XML，甚至也不是ASCII。二进制文件仍然在网络中传播，储存在磁盘上，在应用程序之间传递。相比之下，在处理这些问题方面，它们比文本文件显得更有效率些。

在 C 和 C++ 中，读取二进制文件还是很容易的。除了一些开始符（carriage return）和结束符（line feed）的问题，每一个读到C/C++中的文件都是二进制文件。事实上，C/C++ 只知道二进制文件，以及如何让二进制文件像文本文件一样。当我们使用的语言越来越抽象时，我们最后使用的语言就不能直接、容易的读取创建的文件了。这些语言想要用它们自己独特的方式来自动处理输出数据。

问题的所在

在许多计算机科学领域，C 和 C++ 仍旧直接依照数据结构来储存和读取数据。在C和C++中，依照内存中的数据结构来读取和写文件，是十分简单的。在C中，你只需要使用fwrite()函数，并提供下列参数：一个指向你的数据的指针，告诉它有多少个数据，一个数据有多大。这样，就直接用二进制格式把数据写成文件了。

如上所述的那样把数据写成文件，同时如果你也知道其正确的数据结构的话，那么也就意味着读取文件也很容易。你只要使用 fread() 函数，并提供下列参数：一个文件句柄，一个指向数据的指针，读取多少个数据，每一个数据的长度。 fread() 函数帮你把其余的事都做了。突然，数据又回到了内存中。没有采用解析以及也没有对象模型的方式，它只是把文件直接的读到内存中。

在C和C++中，最大的两个问题就是数据对齐（structure alignment）和字节交换（byte swapping）。数据对齐指的是有时编译器会跳过数据中间的字节，因为如果处理器访问到那些字节，就不再处于最优化状态下了，要花费更多的时间（一般情况，处理器访问未对齐数据花费的时间是访问对齐数据的两倍），花费更多的指令。因此，编译器要为了执行速度而进行优化，跳过了那些字节并重新进行排序。另一方面，字节交换指的是：由于不同处理器对字节排序的方式不同，需要对数据的字节重新排序的过程。

数据对齐

因为处理器能够一次处理更多的信息（在一个时钟周期内），所以它们希望它们所处理的信息能以一种确定的方式排列。大多数的 Intel 处理器使整数类型（32位的）的储存首地址能被4除尽（即：从能被4除尽的地址上开始储存）。如果内存中的整数不是储存在4的倍数的地址上的话，它们是不会工作的。编译器知道这些。因此当编译器遇到一个可能引起这种问题的数据时，它们就有下面三种选择。

第一种，它们可以选择在数据中添加一些无用的白空格符，这样可以使整数的开始地址能被4除尽。这是一种最普遍的做法。第二种，它们可以对字段重新排序，以便使整数处于4位的边界上。因为这样会造成其它有趣的问题，因此，这种方式较少使用。第三种选择是，允许数据中的整数不处于4位的边界上，但是把代码复制到一个合适的地方从而使那些整数处于4位的边界上。这种方式需要一些额外的时间花费，但是，如果必须压缩的话，那么它就很有用了。

以上所说的这些大都是编译器的细节问题，你用不着过多的担心。如果你对写数据的程序和读数据的程序使用同样的编译器，同样的设定，那么，这些就不成其为问题了。编译器用同样的方法来处理同样的数据，一切都OK。但是当你涉及到跨平台文件转换问题时，用正确的方式来排列所有数据就显得很重要了，这样才能保证信息能被转换。另外，一些程序员还了解怎样让编译器不用理睬他们的数据。

我要评论()

我有话要说订阅 RSS 探客网资源发送给朋友

上一篇:粗粒度接口使SOA的服务融合成为可能

下一篇:可升级存储解决方案有哪些新方面

最受关注的文章：