你可能已经听说过rss,这是一种基于xml的格式,可以让Web网站在其站点上向所有感兴趣的人发布和发行最新的内容。rss是想偷懒的Web网站管理员的福音,因为他或者她不再需要在其网站上手动更新内容。
所以,Web网站管理员所要做的一切就是插入一个rss客户端,安心地靠在椅子背上,然后让网站“自己来更新”新闻、天气预报、证券市场数据,以及软件更新的提示。在上一篇文章里,你已经看到了可以如何在ASP.NET平台上通过搜索适当的元素来手动剖析rss feed并从里面提取信息。但是我习惯使用UNIX,而且我有比ASP.NET更好的东西。那就是Perl。
用Perl剖析rss通常由xml::rss CPAN工具包来处理。与只带有普通的xml剖析器并希望由你自己来手动编写剖析rss代码的ASP.NET不同,xml::rss工具包专门设计用来读取和剖析rss feed。当你把rss feed送到xml::rss的时候,它会把feed里的各种<item>转换成数组元素,并公开多种方法和属性来访问feed里的数据。目前,xml::rss支持0.9、0.91和1.0的rss。
完全使用Perl编写的xml::rss在默认情况下没有含在Perl里,所以你必须从CPAN里安装它。详细的安装指导在下载文档里有,但是安装它的最简单方法是用使用CPAN的命令解释程序,就像下面这样:
shell> perl -MCPAN -e shell
cpan> install xml::rss
如果你使用CPAN的命令解释程序,那么依赖性就会被自动地下载给你(除非你告诉命令解释程序不要下载依赖性模块)。如果手动下载和安装该模块,那么你可能需要在安装xml::rss之前就下载和安装好xml::Parser模块。本教程里面的例子也需要LWP::Simple程序包,所以如果你还没有的话,也应该下载和安装它。