当前位置:编程学习 > VB >>

急求:有人实现过纯文本抽取功能吗??

请教:实现一个功能,即将.doc/.pdf格式的文本转换为.txt格式,重要的是对于.doc/.pdf中嵌入的对象,如visio图表也能正确解析出来。 --------------------编程问答-------------------- 属于图象识别技术 这个若是个人来做....很难

我记得比较好的一款图象识别成文字的软件(我用过的)有个叫 <尚书7号>的扫描识别软件

但要求扫描的时候字体必须放正 否则也识别不好!

--------------------编程问答-------------------- [属于图象识别技术   这个若是个人来做....很难 

我记得比较好的一款图象识别成文字的软件(我用过的)有个叫   <尚书7号> 的扫描识别软件 

但要求扫描的时候字体必须放正   否则也识别不好! ]

有源代码吗??
--------------------编程问答-------------------- 尚书识别是属清华紫光系统,是清华大学专利,哪有源码? --------------------编程问答-------------------- PDF格式转换为TXT文本格式    http://www.80diy.com/home/20051122/16/4410908.html --------------------编程问答-------------------- doc格式的文本转换为.txt格式:
http://topic.csdn.net/u/20071130/22/9ed60eeb-27c0-43d0-a4c3-2980b38f1479.html --------------------编程问答-------------------- 红樱枫软件可以,它提供API接口和通用库,不过得购买 --------------------编程问答-------------------- 楼主还是放弃吧,工程量颇大。
无论DOC还是PDF都不是什么好啃的骨头。
补充:VB ,  基础类
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,