Perl作为命令行实用程序

那些将 Perl 用作编程语言的人经常忽视了：Perl 用作命令行操作的快速而又难看的脚本编制引擎时是很有用的。通过命令行，Perl 仅用一行就可以实现大多数其它语言需要数页代码才能完成的任务。跟着 Teodor，他会教给您一些有用的示例。

　　为了完成这一篇 how-to 文章，您需要在系统上安装 Perl 5.6.0。您的系统最好安装比较新（2000 或更新）的 Linux 或 Unix，但是其它操作系统也能照样工作。所有的示例都使用 tcsh shell（尽管 bash 及其它 shell 也能工作）。虽然这些示例也许可以和较早版本的 Perl、Linux 及其它操作系统一起工作，但是如果它们不能一起工作，那么它们无法工作的原因可以作为练习，让读者去解决。

　　我想说的第一点是：有经验的程序员不应回避快速而又难看的解决方案。在其它专栏文章中，我已经强调了文档编制和彻底性。本专栏文章将集中在编程的消极面，其中文档编制是可选的，而咖啡因却无从选择。因为我们已经身陷其中。

　　第二点和第一点一样重要：快速而又难看的解决方案很难正确完成。如果您知道如何记录、测试和调试完整的脚本，那么您就非常有可能在一行程序中取得成功。如果您不知道怎样做，那么这就像是企图用鲱鱼来砍倒红杉树（而您的技能就是那条鲱鱼）。

　　第一步，您应该学习 shell 的特性：Unix 将命令行参数传递给 Perl 的方式及这些参数的 Perl 解释方法。

　　命令行的实质

　　在 Unix 中您将看到可执行任务的概念，一个进程通常是装入内存的程序。除了初始进程外，进程都可以由其它进程来启动，初始进程通常是由内核（有时由内核进程）来启动的。就用户的观点而言，启动进程需要 shell 或启动程序。因此，当用户在 shell 命令行输入"xeyes"或者从启动程序菜单（类似于 GNOME 任务栏）选择 X Eyes 应用程序时，shell 或启动程序创建新的进程以运行该程序。

　　进程获得命令行参数。因此，例如，"perl"和"perl -w"是对同一个程序的两种不同调用。在内部，Perl（类似于 C）将参数传递给它用 @ARGV 数组解释的脚本。但是和 C 不同的是，Perl 偷偷地从脚本中"窃取"其中一些参数以用于自己的用途。例如，正在解释的脚本看不到传给 Perl 解释器的"-w"参数，除非脚本看来需要它。shell 用空格字符隔开参数。

　　传给 Perl 的"-e"参数告诉 Perl 获取命令行中"-e"后的任何内容并将它当作脚本来运行。"-M"参数表示获取其后的任何内容并将该内容作为模块导入，类似于正规脚本中的"use ModuleName"。请参阅 perldoc perlrun 页面以获取有关 Perl 必须从命令行提供的开关的更多信息。

　　可能最好在这里举些示例。根据本专栏文章的精神，让我们使用一行程序。脚本的 -MData:umper -e'print Dumper -@ARGV' 部分只是打印出了 @ARGV 数组的内容。

　　清单 1. 命令行参数

　　# at the command line, type each line after the '>'

　　# and you'll get the output that

　　# follows it

　　# print the @ARGV contents with no program arguments

　　> perl -MData:umper -e'print Dumper \@ARGV'

　　$VAR1 = [];

　　# print the @ARGV contents with arguments "a" and "b"

　　> perl -MData:umper -e'print Dumper \@ARGV' a b

　　$VAR1 = [

　　'a',

　　'b'

　　];

　　# print the @ARGV contents with warnings on, and arguments "a" and "b"

　　> perl -w -MData:umper -e'print Dumper \@ARGV' a b

　　$VAR1 = [

　　'a',

　　'b'

　　];

　　# print the @ARGV contents with arguments "a", "b", and "-w"

　　# note how the -w is not stolen by Perl if it follows arguments

　　# that Perl knows it doesn't want

　　> perl -MData:umper -e'print Dumper \@ARGV' a b -w

　　$VAR1 = [

　　'a',

　　'b',

　　'-w'

　　];

　　Here is the final line that includes some

　　除非您的 shell 限制了参数的数量或长度，不然您可以向 Perl 传递任意数量的参数。在 Perl 中打开神奇的文件句柄（filehandle）<>，这会将传送给 Perl 的每个参数作为文件名打开并逐行读取每个文件的内容。缺省情况下，$_ 变量会保存每一行。

　　Shell 使引号之间的所有内容都成为一个参数。这就是为什么在清单 1 中我们可以写成 -e'print Dumper \@ARGV' 并且 Perl 可以将其看成单个一行程序脚本的原因。单引号更好，因为使用单引号后您可以在一行程序内使用双引号。Perl 中的双引号用于解释双引号之间的任何内容。另一个示例或许会有助于进一步说明这一点：

　　清单 2. 单引号 vs. 双引号

　　# print the Perl process ID, followed by a newline

　　> perl -e'print "$$\n"'

　　2063

　　# error: the first two double quotes go together, the rest is passed

　　# to the script directly

　　> perl -e"print "$$\n""

　　Bareword found where operator expected at -e line 1, near "1895n"

　　(Missing operator before n?)

　　syntax error at -e line 1, next token ???

　　Execution of -e aborted due to compilation errors.

　　用 bash 比用 tcsh 要好些，因为 bash 允许内部的双引号用 \ 字符进行转义。但是 shell 仍然在将双引号内的 $$ 传递给 Perl 之前对其进行解释。结论是：不要使用双引号来指定以 -e 开始的一行程序脚本参数。请参阅 perldoc perlrun 以获取更多的详细信息，但是您主要应清楚什么在系统上有效并坚持下去。

　　到目前为止您已经了解了 -e 和 -M 开关所起的作用：导入模块和运行语句。下面我列出了一些有用的其它开关；为了不把您搞糊涂，所以省略了那些更复杂的开关。请参阅 perldoc perlrun 以获取完整的列表和一些使用想法。

　　整洁性

　　-w

　　打开警告

　　-Mstrict

　　打开严格编译指示（pragma）

　　数据

　　-0

　　（这是个零）指定输入记录分隔符

　　-a

　　将数据分割成名为 @F 的数组

　　-F

　　指定分割时 -a 使用的模式（请参阅 perldoc -f split）

　　-i

　　在适当的位置编辑文件（请参阅 perldoc perlrun 以获取大量详细信息）

　　-n

　　使用 <> 将所有 @ARGV 参数当作文件来逐个运行

　　-p

　　和 -n 一样，但是还会打印 $_ 的内容

　　执行控制

　　-e

　　指定字符串以作为脚本（多个字符串迭加）执行

　　-M

　　导入模块

　　-I

　　指定目录以搜索标准位置前的模块

　　文件操作

　　假定您在一个目录中有一些文件需要用特定的方式重命名。例如，所有包含单词"aaa"的文件应进行重命名，用单词"bbb"进行代替。我们将不使用 Unix"mv"命令，因为用 Perl 的 rename() 函数来重命名文件已经相当不错了（请参阅 perldoc -f rename 以获取当使用 rename() 出问题时的详细信息）。

　　请参阅清单 3 以获取将文件从 aaa 重命名为 bbb 的一行程序脚本。

　　find . 命令打印出当前目录下的所有文件和目录列表。如果您只想要查看文件，那么就给 find 添加"-type f"参数。获取 find 的输出（一个文件列表）并将其传递给一行程序。

　　一行脚本使用 -ne 参数，该意味着它会被重写成：

　　清单 4. 将文件从 aaa 重命名为 bbb（已分解）

　　while (<> )

　　{

　　chomp; # trim the newline from the filename

　　next unless -e; # the filename ($_) must exist

　　$oldname = $_; # $oldname is now $_

　　s/aaa/bbb/; # change all "aaa" to "bbb" in $_

　　next if -e; # the new filename mustn't exist

　　rename $oldname, $_; # rename the old to the new name

　　}

　　正如您所看到的那样，这是个相当复杂的七行脚本。-n 开关简化了很多东西。但是尽管如此，您还是必须知道 $_ 变量和 s/// 及 -e 运算符（请参阅 perldoc perlop 页面以获取详细信息）。File::Find 标准 Perl 模块本来可以代替 Unix find 命令用于进行文件查找，但是脚本也会随之变得太大而不再是一行程序了。

　　一行程序巧妙地平衡了有用性和复杂性，您必须准备好在需要时将它们重写成实际脚本，而不应让程序过于麻烦而无法控制。

　　下面是文件处理的另一个示例：用已知的命名结构浏览 MP3 文件的目录并抽取专辑名。让我们假设文件名是"Artist-Album-Track#-Song.mp3"。

　　清单 5. 查找 Artist-Album-Track#-Song.mp3 的专辑名

　　> find . -name "*.mp3" | perl -pe 's/.\/\w+-(\w+)-.*/$1/' | sort | uniq

　　这个脚本非常简单。它依靠 find 的行为，总是在每个文件名前打印"./"。随后它仅用专辑名代替 $_，并且 -p 开关自动打印专辑名。最后，按顺序的 sort 和 uniq 确保了重复的专辑名只打印