当前位置:编程学习 > 网站相关 >>

史上超难的问题,网页新闻的自动分析算法

求助:
   
    C# 打开一篇网页新闻,能够自动分析出该新闻中的标题,作者,时间,内容等元数据。有哪位高手能提供一个思路,针对不同的网站。


    Help,Help --------------------编程问答-------------------- 那得看这个网页是如何设计的,文章的格式是否有规律。比如可以寻找页面代码里的<Artikel Author="", Title="">,<Content>标签什么的。

如果文章版面毫无规律可言,那还真是“史上超难的问题”。 --------------------编程问答-------------------- 如果是不同的网站,肯定要用到机器学习算法。不过其实也不一定,第一行是标题  下面一行短的是作者 及 单位,简单的用正则表达式匹配一下就行。 --------------------编程问答-------------------- 长见识了。楼主还要继续努力。 --------------------编程问答-------------------- 别怎么就说最难问题,你的问题只要语言精通点的就能搞定好么 --------------------编程问答-------------------- --------------------编程问答-------------------- 多看 --------------------编程问答-------------------- 一位不结贴的提问者  拒绝回答问题 --------------------编程问答-------------------- 长度不一样
--------------------编程问答--------------------     首先用程序抓取到所有的内容,然后剔除掉网页的标签,剩下的就是匹配标题,作者和内容了
补充:云计算 ,  云安全
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,