解析得到除去标签的txt内容- JSP - 软晨网（RuanChen.com）

当前位置: 首页 > 图文教程 > 网络编程 > JSP > 解析得到除去标签的txt内容

JSP: 写一个对搜索引擎友好的文章SEO分页类; ajax+jsp草稿自动保存的实现代码; 什么是eclipse，eclipse的意思解析; 经常听朋友说什么J2EE，终于知道点什么是J2EE了，汗一个; 搭建SSH时的思考和遇到的几个问题的解决方法; RMI使用学习小结; weblogic 8.1下重新编译java类但不用重启服务器的方法; JSP下动态INCLUDE与静态INCLUDE的区别分析; jsp中文乱码 jsp mysql 乱码的解决方法; Jsp页面实现文件上传下载类代码; 下载完成后页面不自动关闭的方法; XStream使用方法总结附实例代码; 惊现支撑1亿pv/天的超级数据库解决方案; jsp遍历文件夹下的文件的代码; JSP中include指令和include行为的区别; FCKeditor使用方法(FCKeditor_2.6.3)详细使用说明; AJAX FCKEditor Rich Editor整合篇; Java下使用Oracle存储过程(详解); java AJAX实现级联下拉框; java去掉html标签必须首先去掉双引号的正则

No. « ‹ 29 30 31 32 › »

技术文章搜索

关键字

JSP 中的解析得到除去标签的txt内容

出处:互联网 整理: 软晨网（RuanChen.com） 发布: 2009-09-13 浏览: 58 ::

收藏到网摘: n/a

JSP动态网站开发环境配置详细方法 jsp ${param.id}用法

一个网页中可能含有很多段落，但同时也夹杂着不少的标签（tags），而这却不是我们所需要的，所以必须去掉。那么怎么去掉呢？用Visitor，请看下面代码

复制代码代码如下:

NodeList body_nodes=this.getParser().parse(body_filter); 
for(int i=0;i<body_nodes.size();i++) 
{ 
Node node=body_nodes.elementAt(i); 
Parser body_parser=new Parser(node.toHtml()); 
TextExtractingVisitor visitor=new TextExtractingVisitor(); 
body_parser.visitAllNodesWith(visitor); 
body.append(visitor.getExtractedText()); 
} 

TextExtractingVisitor，visitAllNodesWith等类及方法都是Visitor中比较很重要但也很少见的。
下面附源代码：

复制代码代码如下:

import java.io.BufferedWriter; 
import java.io.File; 
import java.io.FileWriter; 
import java.io.IOException; 
import java.util.Date; 
import org.htmlparser.Node; 
import org.htmlparser.NodeFilter; 
import org.htmlparser.Parser; 
import org.htmlparser.filters.AndFilter; 
import org.htmlparser.filters.HasAttributeFilter; 
import org.htmlparser.filters.HasChildFilter; 
import org.htmlparser.filters.TagNameFilter; 
import org.htmlparser.util.NodeList; 
import org.htmlparser.visitors.TextExtractingVisitor; 
import com.extractor.Extractor; 
public class ExtractorHangdian extends Extractor{ 
public void extract() 
{ 
BufferedWriter bw=null; 
String indextime; 
String title; 
StringBuffer body=new StringBuffer();; 
NodeFilter time_filter=new AndFilter(new TagNameFilter("font"),new HasAttributeFilter("color","#808080")); 
NodeFilter title_filter1=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("b"))); 
NodeFilter body_filter=new AndFilter(new TagNameFilter("td"),new HasChildFilter(new TagNameFilter("p"))); 
try 
{ 
NodeList title_nodes=this.getParser().parse(title_filter1); 
Node node=title_nodes.elementAt(0); 
NodeList node2=node.getChildren(); 
//title=node2.elementAt(0).toHtml(); /* '\r\n' */ 
//title=node2.elementAt(1).toHtml(); /*font color="#000080" style="font-size:14.4px*/ 
//title=node2.elementAt(2).toHtml(); /* b */ 
title=node2.elementAt(3).toHtml(); /* 教材征订及教师用书登记通知 */ 

bw=new BufferedWriter(new FileWriter(new File(this.getOutputPath()+title+".txt"))); 
String url_seg1=getInputFilePath().substring(3,30); 
int end=getInputFilePath().lastIndexOf("."); 
String url_seg2=getInputFilePath().substring(30, end); 
String url_seg=url_seg1+".asp?"+url_seg2; 
url_seg=url_seg.replaceAll("\\\\","/"); 
String url="http://"+url_seg; 
bw.write(url+NEWLINE); 
bw.write(title+NEWLINE); 

} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 
this.getParser().reset(); 
try 
{ 
NodeList time_nodes=this.getParser().parse(time_filter); 
Node time_node=time_nodes.elementAt(1);//这里的“1”表示符合time_filter的第二个元素 
indextime=time_node.getNextSibling().toHtml(); 
bw.write(indextime+NEWLINE); 
} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 
this.getParser().reset();//得到除去标签的所有txt文本 
try 
{ 
NodeList body_nodes=this.getParser().parse(body_filter); 
for(int i=0;i<body_nodes.size();i++) 
{ 
Node node=body_nodes.elementAt(i); 
Parser body_parser=new Parser(node.toHtml()); 
TextExtractingVisitor visitor=new TextExtractingVisitor(); 
body_parser.visitAllNodesWith(visitor); 
body.append(visitor.getExtractedText()); 
} 
bw.write(body+NEWLINE); 
} 
catch(Exception e) 
{ 
e.printStackTrace(); 
} 
try 
{ 
if(bw!=null) 
bw.close(); 
}catch(IOException e) 
{ 
e.printStackTrace(); 
} 
} 
} 

这里顺便提一下，当年bw没有关掉，怎么读不进去，搞了我好几天，郁闷死了，想起来就火大，注意！！

JSP动态网站开发环境配置详细方法 jsp ${param.id}用法

JSP 中的 解析得到除去标签的txt内容

评论 (0) All

JSP 中的解析得到除去标签的txt内容