如何对PDF文件进行版面分析？

前言

  单位要做电子报，每一期的报纸都会存一份PDF，数据是文字和图片混排。现在需要做一份电子报，也看了紫新报通公司的的《紫新报通标引反解系统》软件，它软件是选择一份报纸的PDF，然后会自动分析出文字区域和图片区域，并且文字区域继续也分析出标题和内容，然后添加到一个文章列表里，最后把所有文字按报纸期号导出到一个文件夹（都为XML文件）。最后由脚本编辑成HTML文件，前台就可以显示了。

现状

   我们单位要自己开发，我也找了些PDF控件，没有几个好用的，最后说图片识别用OCR技术，我也做了测试发现准确率很低，最为政府性质的报纸是不能出现文字性错误。找了些软件例子，发现了汉王OCR，他可以进行版面分析，这个很好。和紫新报通的一样，但是汉王OCR也是通过OCR技术对PDF转成图片转成文字。准确率很低，但是我想要汉王OCR这种版面分析的格局。

软件
我用VB做了一个简单的OCR识别器，识别率很低很低。

问题
我现在要做个想汉王OCR一样可以对版面进行分析，然后对于分析出来的框，直接进行文字提取，不是转换成图片再识别文字。因为我们导出的PDF数据里面都是文字和图片信息，不是全图片。如何做到？

--------------------编程问答-------------------- OCR 不是一句话两句话说清楚的。真正要做的话，也不要来这种没有什么帮助的LT。
情况是牛人都走了，新的牛人还没有来
月亮下去了，太阳还没有出来

补充：VB ,  控件