当前位置:编程学习 > VB >>

如何对PDF文件进行版面分析?

前言

  单位要做电子报,每一期的报纸都会存一份PDF,数据是文字和图片混排。现在需要做一份电子报,也看了紫新报通公司的的《紫新报通标引反解系统》软件,它软件是 选择一份报纸的PDF,然后会自动分析出文字区域和图片区域,并且文字区域继续也分析出标题和内容,然后添加到一个文章列表里,最后把所有文字按报纸期号导出到一个文件夹(都为XML文件)。最后由脚本编辑成HTML文件,前台就可以显示了。


现状

   我们单位要自己开发,我也找了些PDF控件,没有几个好用的,最后说图片识别用OCR技术,我也做了测试发现准确率很低,最为政府性质的报纸是不能出现文字性错误。找了些软件例子,发现了汉王OCR,他可以进行版面分析,这个很好。和紫新报通的一样,但是汉王OCR也是通过OCR技术对PDF转成图片转成文字。准确率很低,但是我想要汉王OCR这种版面分析的格局。
          


软件
   我用VB做了一个简单的OCR识别器,识别率很低很低。
   


问题
   我现在要做个想汉王OCR一样可以对版面进行分析,然后对于分析出来的框,直接进行文字提取,不是转换成图片再识别文字。因为我们导出的PDF数据里面都是文字和图片信息,不是全图片。如何做到?



--------------------编程问答-------------------- OCR 不是一句话两句话说清楚的。真正要做的话,也不要来这种没有什么帮助的LT。
情况是牛人都走了,新的牛人还没有来
月亮下去了,太阳还没有出来
补充:VB ,  控件
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,