抓取繁体网站 源代码出现乱码 怎么办?
通过 WebBrowser 浏览繁体网站,通过WebBrower.DocumentText的到该网站页面的源代码,但是显示乱码。如:
<head>
<title>???-??-???h??Τ???U??D????d??</title>
<meta name="description" content="???h????Τ????????i??ΡB???????G???B?e?f??i???Υ????O?i??ε????A??A?H????i???A??ΧC?d?????~?C?U?A???d???P???A???,??_?]?????q,???B??H!">
<META NAME="keywords" CONTENT="???,??" >
<meta name="author" content="???,??">
<meta name="copyright" content="???,??">
<META http-equiv="Content-Type" content="text/html; charset=BIG5">
怎么办?
--------------------编程问答-------------------- 应该是字符集的问题,设置为default应该可以吧,猜的~~ --------------------编程问答-------------------- Encoding.Default? --------------------编程问答-------------------- 编码问题,设成Big5 --------------------编程问答-------------------- 不可以啊~~~ 头疼。。。 --------------------编程问答-------------------- 编码问题
--------------------编程问答-------------------- GBK试试 --------------------编程问答-------------------- 用UTF-8 試試 --------------------编程问答-------------------- Encoding big5Encoding = Encoding.GetEncoding("Big5");
byte[] bytes = big5Encoding.GetBytes( WebBrower.DocumentText );
String str = Encoding.Default.GetString(bytes);
这样就把Big5转换成Unicode的了。你也可以转换成别的编码的 --------------------编程问答-------------------- 谢谢 !
已经解决:
StreamReader sReader=new StreamReader(WebBrowser.DocumentStream,Encoding.GetEncoding("big5"));
Console.WriteLine(sReader.ReadToEnd());
谢谢!
补充:.NET技术 , C#