html解析器工作原理

先看一个简单的html文档

[html]

<html>

<head>

</head>

<body>

<div style="height: 100px; border: 1px solid #ff0000; font-size: 24px; font-weight: bold;">Hello World!</div>

</body>

</html>

1. 首先用一个类来描述一个节点

[java]

public class Node{

private String nodeName;

private int nodeType;

private Map<String, String> attributes;

private List<Node> childNodes;

private Node parent;

// getter & setter

...

}

然后我们开始对输入内容进行解析，解析的过程其实就是解析字符串的过程，为了便于解析先把源字符串封装成一个HtmlStream对象.

[java]

String source = IO.read(new File("test.html"), "UTF-8");

HtmlStream stream = new HtmlStream(source);

char c;

int i = 0;

// 忽略掉文档开头的空格

while((i == stream.read()) != -1)

{

if(i != ' ')

{

// 回退一个字符

stream.back();

break;

}

Stack<Node> stack = new Stack<Node>();

StringBuilder buffer = new StringBuilder();

// 为了便于程序阅读，先分成两部分

// 第一部分解析节点，通过startTag来完成

// 第二部分读取文本内容，遇到<的时候终止

while((i == stream.read()) != -1)

{

if(i == '<'){

this.startTag();

}

else if{

buffer.append((char)i);

while((i == stream.read()) != -1)

{

if(i == '<')

{

stream.back();

break;

}

buffer.append((char)i);

}

this.pushTextNode(stack, buffer.toString());

buffer.setLength(0);

}

再来看startTag

[java]

public void startTag(Stack<Node> stack)

{

int i = this.stream.peek();

if(i == '/')

{

String nodeName = this.readNodeName();

this.endTag(stack, nodeName);

}

else if(i == '!')

{

// 注释...

}

else

{

String nodeName = this.readNodeName();

if(nodeName.length > 0)

{

Node node = new Node(nodeName);

this.readAttributes(node.getAttributes());

this.pushNode(stack, node);

}

else

{

this.pushTextNode(stack, "<");

}

// 当标签结束时

public void endTag(Stack<Node> stack, String nodeName){

Node node = stack.peek();

if(node == null)

{

// 读取到>, 并写入文本节点, 略去

this.pushTextNode(stack, "<" + nodeName + ...);

return;

}

if(node.getNodeName().equalsIgnoreCase(nodeName))

{

stack.pop();

// 其他处理...

}

先说一下栈的结构, 这个是html解析中一个很重要的东西.

当我们用Node这个类来描述一个节点的时候，很容易把一个树形结构的数据串起来, 只需要建立父子关系即可。

但是当解析一个html文件的时候，怎么把读取到的一个结束节点跟之前读取的n个开始节点中的某一对应呢？

为了简单的说明这个问题，可以用类json格式的数据来表示一下：

var array = []; // 定义一个数组

现在假设这个数组里面有4个节点，它描述了下面的一个html片段

现在整个数组是这样:

[{node: html}, {node: head}, {node: title}, {text: test}, {node: /title}, {node: /head}, {node: body}, {node: /body}, {node: /html}]

这样看起来它其实跟原始的数据没什么区别，只不过变了中描述方式。

现在我们用一个指针指向这个数组的末端, 并且始终指向末端, 就变成了一种栈结构. 当某一个节点结束时，取指针位置的元素，正常情况下，这个元素一定是这个结束节点对应的开始节点.

如果结束节点的节点名跟指针位置对应的节点的节点名不一致，那就说明某一个节点没有正确闭合, 这个时候需要一些容错处理, 如果是xml解析直接抛异常即可.

现在详细的描述一下这个步骤:

先解析第一个节点, 这个节点是<html>, 并且是开始节点, 把它压入栈, 现在的栈中的数组元素应该是这样的:

[{node: html}]

只有一个节点，指针指向0

然后是第二个节点, 它也是一个开始节点，因此也压入栈, 现在的栈中的数组元素应该是这样的:

[{node: html}, {node: head}]

依次类推, 直到遇到文本节点和结束节点, 当遇到文本节点的时候, 栈中的元素如下：

[{node: html}, {node: head}, {node: title}]

现在处理下一个，发现是个文本节点, 节点内容是: test, 先从栈顶弹出一个节点，如果是文本节点，直接把该文本追加，如果是元素节点

[java]

补充：web前端 , HTML/CSS  ,

上一个：网站设计分析：清楚明了的对话框选项
下一个：网站设计分析：活动页设计心得二三

更多图片编程知识:

更多html/css疑问解答：: div+css中关于ie浏览器中非啊元素的：hover的实现问题，哪位大神指点下啊; css jquery代码中为什么宽度这样设定.menu li ul 150px;.menu li ul a 110px;.menu li a中padding的20px; css 属性选择器 ie6 不支持吗？; 用css、jquery做的选项卡效果，有一个小疑问，请高手指点，代码如下：; 介绍本学习css的书; wordpress多个CSS样式怎么调用？; 这个div 的css是如何编写的; div+css中，div的右边框小于div的高度且居中，除了用背景图片，如何实现？; 表格立体感用CSS怎么写我要具体代码写仔细分段的谢谢了兄弟还有下拉列表框立体感用CSS 怎么写; CSS 在一个大的DIV里面，另一个DIV怎么居中并置底。; dw中html文档为什么无法链接css文档; 设计一个小例子说明DIV+CSS的优势（例子要解释并注释）。; 我会html css目前正在学js，打算在大三的寒假找个实习，请问应该找哪方面的实习？; css问题，跪求大大帮忙; 请教网页设计高手，如下图的这种css代码怎么写？