当前位置:编程学习 > C#/ASP.NET >>

正则表达式截取字符串问题~~~~~急

我有这样一个程序,遍历HTML文档中的内容,把所有链接信息都获取出来然后判断链接地址的有效性。如<a href="/aa/aa.html"></a>我用正则取出了href部分然后在判断链接地址的有效性,但有一种情况不知道该如何实现就是当href部分是脚本打开某个页面,比如<a href="window.open('/aa/aa.html','','')"></a>我该怎样取里边的链接地址呢? --------------------编程问答-------------------- --------------------编程问答-------------------- 取URL组

href=\"(window\.open\(')?(?<url>[^\"\']+)
--------------------编程问答-------------------- string str="你请求的网址";
string str2=gethtml(str);//得到原代码
string strmp=string.empty;
matchcollection mc=regex.matches(str2,"href=['"]?(.*?)['" ]");
foreach(match m  in mc)
{
str2=m.groups[1].value;
if(!str2.startwith("http"))
{
str2=str+str2;//这里可以指定一套算法,过滤掉./如果是../那么remove最后一段/开头
然后请求str2,如果发现错误,link失效!
}
} --------------------编程问答-------------------- href=\"(window\.open\(')?(?<url>[^\"\']+)
建议下载我的C#获取网页纯文本。
补充:.NET技术 ,  C#
CopyRight © 2022 站长资源库 编程知识问答 zzzyk.com All Rights Reserved
部分文章来自网络,