linux编程的108种奇易做图巧计-4(编译展开)完整版

今天继续介绍第4种常见技巧，编译展开，代码见本文最后，重要的部分有注释说明。

我们知道对于循环，编译器会自动进行展开，但是如何展开，这完全不可控，如果我们自行码代码，代码会显得臃肿难看，大段重复代码，因此本为介绍了一种常见的方法进行这种代码展开，可以写到任意层次，我这里只写到了DO16,见代码加粗的部分。

实验表明在手动展开后，加上O3的编译优化，依然能够比不手动展开要快，大家可以实验以下的代码。

可能会有读者问，这能节省多少时间，会有多少好处，那么请读者朋友们做实验来验证吧，一切真知来自实践。如果经常阅读高质量开源代码会常常看到这个技巧，希望读者在深入理解后在工作中多多采用。

有兴趣的朋友还可以用不同层次（4，16，32，64）的展开，看看展开多少是最优的，并解释原因，那恭喜您，您的境界又上了一个新的台阶了。

注：1)里面会使用到一些此前介绍过的代码，因此新读者建议阅读此前系列的内容，链接在本文最后。

2)本文的续篇参见：aspx">http://blog.csdn.net/pennyliang/archive/2010/10/30/5975678.aspx

在用-O3编译后，用objdump -d test_m1_o3观察代码的情况[两段rdtsc之间的代码，为主要计算过程的代码]

400730: 83 fd 02 cmp $0x2,%ebp

400733: 89 c6 mov %eax,%esi

400735: 4c 8d 63 fc lea 0xfffffffffffffffc(%rbx),%r12 //0xfffffffffffffffc为16进制的 -4，未来会有专门博客介绍这段代码的具体含义，不在本文展开。

400739: 7e 21 jle 40075c <main+0xac>

40073b: 8d 45 fd lea 0xfffffffffffffffd(%rbp),%eax

40073e: 4c 8d 63 fc lea 0xfffffffffffffffc(%rbx),%r12

400742: 31 d2 xor %edx,%edx

400744: 48 8d 48 01 lea 0x1(%rax),%rcx

400748: 8b 44 93 04 mov 0x4(%rbx,%rdx,4),%eax

40074c: 03 04 93 add (%rbx,%rdx,4),%eax //循环并没有被展开

40074f: 89 44 93 08 mov %eax,0x8(%rbx,%rdx,4)

400753: 48 83 c2 01 add $0x1,%rdx //相当于i++

400757: 48 39 ca cmp %rcx,%rdx

40075a: 75 ec jne 400748 <main+0x98>

用objdump -d test_m3_o3观察代码的情况[两段rdtsc之间的代码，为主要计算过程的代码]

400726:       89 c7                   mov    %eax,%edi
400728:       8d 45 0f                lea    0xf(%rbp),%eax
40072b:       85 ed                   test   %ebp,%ebp
40072d:       89 ea                   mov    %ebp,%edx
40072f:       4d 8d 6c 24 fc          lea    0xfffffffffffffffc(%r12),%r13
400734:       be 02 00 00 00          mov    $0x2,%esi
400739:       0f 48 d0                cmovs %eax,%edx
40073c:       c1 fa 04                sar    $0x4,%edx
40073f:       83 fa 02                cmp    $0x2,%edx
400742:       7e 79                   jle    4007bd <main+0x10d>
400744:       4d 8d 6c 24 fc          lea    0xfffffffffffffffc(%r12),%r13
400749:       be 02 00 00 00          mov    $0x2,%esi
40074e:       66 90                   xchg   %ax,%ax
400750:       8b 43 04                mov    0x4(%rbx),%eax    //eax是累加器，可以看到明显的代码展开
400753:       03 03                   add    (%rbx),%eax
400755:       83 c6 10                add    $0x10,%esi
400758:       89 43 08                mov    %eax,0x8(%rbx)
40075b:       03 43 04                add

补充：综合编程 , 其他综合 ,