日韩无码专区无码一级三级片|91人人爱网站中日韩无码电影|厨房大战丰满熟妇|AV高清无码在线免费观看|另类AV日韩少妇熟女|中文日本大黄一级黄色片|色情在线视频免费|亚洲成人特黄a片|黄片wwwav色图欧美|欧亚乱色一区二区三区

RELATEED CONSULTING
相關(guān)咨詢(xún)
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案
構(gòu)建輕量級(jí)XMLDOM分析程序

XML正迅快速的成為數(shù)據(jù)存儲(chǔ)和交換的標(biāo)準(zhǔn)格式流行開(kāi)來(lái)了。現(xiàn)在可用的完整的Java XML分析器非常龐大而且功能強(qiáng)大--但是實(shí)現(xiàn)這些強(qiáng)大的功能的同時(shí)也要消耗等量的資源。

公司主營(yíng)業(yè)務(wù):成都網(wǎng)站建設(shè)、成都做網(wǎng)站、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶(hù)真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對(duì)我們的高要求,感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶(hù)帶來(lái)驚喜。創(chuàng)新互聯(lián)推出錦江免費(fèi)做網(wǎng)站回饋大家。

因此使用一個(gè)功能強(qiáng)大的XML分析器可能過(guò)于浪費(fèi)。如果配置環(huán)境是一個(gè)Java小程序或者是一個(gè)J2ME應(yīng)用程序,網(wǎng)絡(luò)帶寬或者系統(tǒng)存儲(chǔ)器的制約可能根本不能夠使用完整的XML分析器。本文將告訴你如何構(gòu)建一個(gè)輕量級(jí)的XML DOM分析程序。

開(kāi)始編寫(xiě)SimpleDOMParser

SimpleDOMParser是一個(gè)使用Java寫(xiě)的高度簡(jiǎn)化和超輕量級(jí)的XML DOM分析器。 你可以將配置整個(gè)分析器配置為一個(gè)小于4KB的.jar文件。源程序還不到400行呢。

顯然,使用這么小的代碼,SimpleDOMParser將不支持XML域名空間,不能夠理解多字符集編碼或者以DTD文件或者schema驗(yàn)證文件;但是SimpleDOMParser能做的就是把符合語(yǔ)法規(guī)則的XML標(biāo)記解析為一個(gè)類(lèi)似于DOM的元素樹(shù),讓你執(zhí)行從XML格式化文本提取的數(shù)據(jù)的公共任務(wù)。

為什么使用DOM作為模型而不是SAX呢?這是因?yàn)镈OM提供一個(gè)比SAX更加易用的程序接口。與SAX不同的是,當(dāng)你把一個(gè)XML文件作為一個(gè)DOM樹(shù)來(lái)處理的時(shí)候,這個(gè)文件內(nèi)的所有的信息都是可以利用的。雖然SAX分析模型能夠提供比DOM模型更加優(yōu)異的性能和利用更少的存儲(chǔ)空間,但是大部分開(kāi)發(fā)者在使用SAX的時(shí)候都會(huì)發(fā)現(xiàn)他們自己正在創(chuàng)建一個(gè)完整的或者部分的DOM樹(shù)。

使用SAX,一個(gè)應(yīng)用程序每次只能處理一條標(biāo)記。如果其它的標(biāo)記內(nèi)容在處理的過(guò)程中必須被用到,那你就必須在處理的整個(gè)過(guò)程保持一種全局狀態(tài)。而保持全局狀態(tài)正是DOM模型目的的精髓。但是許多小型的XML應(yīng)用程序不需要完整的DOM模型。因此,SimpleDOMParser提供到標(biāo)記名、層次和內(nèi)容的訪問(wèn),但是不涉及完整的W3C DOM的許多用不上的功能。

簡(jiǎn)化DOM模型

一個(gè)DOM樹(shù)是由分析XML文件產(chǎn)生的結(jié)點(diǎn)組成。結(jié)點(diǎn)是一個(gè)XML實(shí)體的非存儲(chǔ)表現(xiàn)。標(biāo)準(zhǔn)W3C DOM模型有幾種類(lèi)型的結(jié)點(diǎn)。 舉例來(lái)說(shuō),一個(gè)文本結(jié)點(diǎn)表示在XML文件中的一段文本,一個(gè)元素結(jié)點(diǎn)表示XML文件而一個(gè)屬性結(jié)點(diǎn)表示一個(gè)元素內(nèi)部的屬性名和值。

DOM是一個(gè)樹(shù),因?yàn)槌烁蛭募Y(jié)點(diǎn)以外的每個(gè)結(jié)點(diǎn)都有一個(gè)父結(jié)點(diǎn)。舉例來(lái)說(shuō),屬性結(jié)點(diǎn)總是和一個(gè)元素結(jié)點(diǎn)相關(guān)聯(lián),而用來(lái)封裝元素的起始標(biāo)記和結(jié)束標(biāo)記中的文本是映射到一個(gè)文本結(jié)點(diǎn)的。文本結(jié)點(diǎn)是元素結(jié)點(diǎn)的一個(gè)子節(jié)點(diǎn)。所以,即使很簡(jiǎn)單的XML文件的表現(xiàn)也可能會(huì)需要很多種節(jié)點(diǎn)類(lèi)型。舉例來(lái)說(shuō),圖1表示下面XML文件的一個(gè)W3C DOM樹(shù)形表示。

 
 
 
  1. <parser>SimpleDOMParser</parser>

正如你在圖1中所看見(jiàn)的,DOM模型使用一個(gè)document類(lèi)型節(jié)點(diǎn)來(lái)封裝整個(gè)XML文件,所以DOM使用三種不同的節(jié)點(diǎn)。通過(guò)把所有的DOM節(jié)點(diǎn)類(lèi)型抽象成為一個(gè)單獨(dú)的類(lèi)型SimpleElement來(lái)盡可能的簡(jiǎn)化DOM模型。一個(gè)SimpleElement獲得一個(gè)XML元素的關(guān)鍵的信息,比如標(biāo)識(shí)名、元素屬性和任何封裝的文本或者XML。此外,SimpleDOMParser不使用任何特殊的節(jié)點(diǎn)類(lèi)型表示***等級(jí)的文檔。結(jié)果是大大地簡(jiǎn)化了DOM樹(shù),使之只包含SimpleElement節(jié)點(diǎn)。圖2表示了簡(jiǎn)化的DOM樹(shù)。

代碼段1給出了SimpleElement類(lèi)的完整的源程序。

 
 
 
  1. public class SimpleElement {
  2. private String tagName;
  3. private String text;
  4. private HashMap attributes;
  5. private LinkedList childElements;
  6. public SimpleElement(String tagName) {
  7. this.tagName = tagName;
  8. attributes = new HashMap();
  9. childElements = new LinkedList();
  10. }
  11. public String getTagName() {
  12. return tagName;
  13. }
  14. public void setTagName(String tagName) {
  15. this.tagName = tagName;
  16. }
  17. public String getText() {
  18. return text;
  19. }
  20. public void setText(String text) {
  21. this.text = text;
  22. }
  23. public String getAttribute(String name) {
  24. return (String)attributes.get(name);
  25. }
  26. public void setAttribute(String name, String value) {
  27. attributes.put(name, value);
  28. }
  29. public void addChildElement(SimpleElement element) {
  30. childElements.add(element);
  31. }
  32. public Object[] getChildElements() {
  33. return childElements.toArray();
  34. }
  35. }  

#p#

定義XML語(yǔ)法分析基本元素

為了把一個(gè)XML文件處理成為上面提到的簡(jiǎn)化的DOM樹(shù)模型,我們必須定義一些基本的語(yǔ)法分析規(guī)則。使用這些規(guī)則,語(yǔ)法分析程序就能容易地從輸入的XML文件中提取標(biāo)記或者文本塊。

***個(gè)是peek,從輸入的XML文件中返回下一個(gè)字符,而實(shí)際上則不必從下層流中獲得這個(gè)字符。通過(guò)保持輸入流的完整性,高級(jí)函數(shù)比如readTag和readText(后面將介紹)可以更加容易地根據(jù)它們接下來(lái)期待的字符獲取需要的內(nèi)容。

 
 
 
  1. private int peek() throws IOException { 
  2. reader.mark(1); 
  3. int result = reader.read(); 
  4. reader.reset(); 
  5. return result; 
  6. }  

下一個(gè)方法是skipWhitespce,作用是跳過(guò)輸入的XML流中的空格、制表符或者回車(chē)符。

 
 
 
  1. private void skipWhitespace() throws IOException { 
  2. while (Character.isWhitespace((char) peek())) { 
  3. reader.read(); 

在創(chuàng)建了如上所述的這兩個(gè)方法后,我們就可以寫(xiě)一個(gè)函數(shù)從輸入文件中檢索XML標(biāo)記。

 
 
 
  1. private String readTag() throws IOException { 
  2. skipWhitespace(); 
  3. StringBuffer sb = new StringBuffer(); 
  4. int next = peek(); 
  5. if (next != '<') { 
  6. throw new IOException 
  7. ("Expected > but got " + (char) next); 
  8. sb.append((char)reader.read()); 
  9. while (peek() != '>') { 
  10. sb.append((char)reader.read()); 
  11. sb.append((char)reader.read()); 
  12. return sb.toString(); 

和peek方法聯(lián)合使用,readTag函數(shù)只獲得一個(gè)標(biāo)記的內(nèi)容,而讓別的函數(shù)去處理其他的內(nèi)容。 ***的一個(gè)方法是readText函數(shù),用來(lái)讀取XML標(biāo)記之間的文本。

 
 
 
  1. private String readText() throws IOException { 
  2. int[] cdata_start = {'<', '!', 
  3. '[', 'C', 'D', 'A', 'T', 'A', '['}; 
  4. int[] cdata_end = {']', ']', '>'}; 
  5. StringBuffer sb = new StringBuffer(); 
  6. int[] next = new int[cdata_start.length]; 
  7. peek(next); 
  8. if (compareIntArrays(next, cdata_start) == true) { 
  9. // CDATA 
  10. reader.skip(next.length); 
  11. int[] buffer = new int[cdata_end.length]; 
  12. while (true) { 
  13. peek(buffer); 
  14. if (compareIntArrays 
  15. (buffer, cdata_end) == true) { 
  16. reader.skip(buffer.length); 
  17. break; 
  18. } else { 
  19. sb.append((char)reader.read()); 
  20. } else { 
  21. while (peek() != '<') { 
  22. sb.append((char)reader.read()); 
  23. return sb.toString(); 
  24. }  

這次使用的peek方法是前面那個(gè)從基本的XML文檔返回一個(gè)字符串序列的peek方法的變體。這個(gè)peek變體讓語(yǔ)法分析程序判斷它將分析的文本是否被裝入一個(gè)CDATA塊。compareIntArrays函數(shù)是一個(gè)執(zhí)行兩個(gè)整數(shù)數(shù)組的深度比較的簡(jiǎn)單程序。

#p#

定義XML語(yǔ)法分析基本元素

為了把一個(gè)XML文件處理成為上面提到的簡(jiǎn)化的DOM樹(shù)模型,我們必須定義一些基本的語(yǔ)法分析規(guī)則。使用這些規(guī)則,語(yǔ)法分析程序就能容易地從輸入的XML文件中提取標(biāo)記或者文本塊。

***個(gè)是peek,從輸入的XML文件中返回下一個(gè)字符,而實(shí)際上則不必從下層流中獲得這個(gè)字符。通過(guò)保持輸入流的完整性,高級(jí)函數(shù)比如readTag和readText(后面將介紹)可以更加容易地根據(jù)它們接下來(lái)期待的字符獲取需要的內(nèi)容。

 
 
 
  1. private int peek() throws IOException { 
  2. reader.mark(1); 
  3. int result = reader.read(); 
  4. reader.reset(); 
  5. return result; 
  6. }  

下一個(gè)方法是skipWhitespce,作用是跳過(guò)輸入的XML流中的空格、制表符或者回車(chē)符。

 
 
 
  1. private void skipWhitespace() throws IOException { 
  2. while (Character.isWhitespace((char) peek())) { 
  3. reader.read(); 

在創(chuàng)建了如上所述的這兩個(gè)方法后,我們就可以寫(xiě)一個(gè)函數(shù)從輸入文件中檢索XML標(biāo)記。

 
 
 
  1. private String readTag() throws IOException { 
  2. skipWhitespace(); 
  3. StringBuffer sb = new StringBuffer(); 
  4. int next = peek(); 
  5. if (next != '<') { 
  6. throw new IOException 
  7. ("Expected > but got " + (char) next); 
  8. sb.append((char)reader.read()); 
  9. while (peek() != '>') { 
  10. sb.append((char)reader.read()); 
  11. sb.append((char)reader.read()); 
  12. return sb.toString(); 

和peek方法聯(lián)合使用,readTag函數(shù)只獲得一個(gè)標(biāo)記的內(nèi)容,而讓別的函數(shù)去處理其他的內(nèi)容。 ***的一個(gè)方法是readText函數(shù),用來(lái)讀取XML標(biāo)記之間的文本。

 
 
 
  1. private String readText() throws IOException { 
  2. int[] cdata_start = {'<', '!', 
  3. '[', 'C', 'D', 'A', 'T', 'A', '['}; 
  4. int[] cdata_end = {']', ']', '>'}; 
  5. StringBuffer sb = new StringBuffer(); 
  6. int[] next = new int[cdata_start.length]; 
  7. peek(next); 
  8. if (compareIntArrays(next, cdata_start) == true) { 
  9. // CDATA 
  10. reader.skip(next.length); 
  11. int[] buffer = new int[cdata_end.length]; 
  12. while (true) { 
  13. peek(buffer); 
  14. if (compareIntArrays 
  15. (buffer, cdata_end) == true) { 
  16. reader.skip(buffer.length); 
  17. break; 
  18. } else { 
  19. sb.append((char)reader.read()); 
  20. } else { 
  21. while (peek() != '<') { 
  22. sb.append((char)reader.read()); 
  23. return sb.toString(); 
  24. }  

這次使用的peek方法是前面那個(gè)從基本的XML文檔返回一個(gè)字符串序列的peek方法的變體。這個(gè)peek變體讓語(yǔ)法分析程序判斷它將分析的文本是否被裝入一個(gè)CDATA塊。 compareIntArrays函數(shù)是一個(gè)執(zhí)行兩個(gè)整數(shù)數(shù)組的深度比較的簡(jiǎn)單程序。


文章名稱(chēng):構(gòu)建輕量級(jí)XMLDOM分析程序
分享路徑:http://m.5511xx.com/article/cdioicp.html