asp.NET 脏字过滤算法修改版- ASP.NET - 软晨网（RuanChen.com）

当前位置: 首页 > 图文教程 > 网络编程 > ASP.NET > asp.NET 脏字过滤算法修改版

ASP.NET: asp.net下将图片保存到XML文件的方法; asp.net 通过aspnetpager为DataList分页; Asp.Net 动态页面转静态页面主要代码; asp.net下检测远程URL是否存在的三种方法; asp.net(C#)把汉字转化成全拼音函数（全拼）; asp.net下xml当作导航数据源实现动态权限; asp.net Cookie操作类; 先装VS再装IIS时出错的解决方法; asp.net 选择excel类型文件，利用Dos命令成批复制文件; Asp.net XML文档进行添加删改操作的实例代码; ASP.NET 页面间数据传递方法小结; asp.net 文件上传与刷新与asp.net页面与iframe之间的数据传输; asp.net Urlrewriter在虚拟主机上的使用方法; Repeater的FooterTemplate中控件内容设置方法; asp.net(c#)做一个网页数据采集工具; ASP.NET调用javascript脚本的常见方法小结; asp.net AutoCompleteExtender的一个简单例子代码; asp.net 光棒效应实现代码; asp.net 数据访问层存储过程分页语句; Asp.Net Oracle数据的通用操作类

No. « ‹ 168 169 170 171 › »

技术文章搜索

关键字

ASP.NET 中的 asp.NET 脏字过滤算法修改版

出处:互联网 整理: 软晨网（RuanChen.com） 发布: 2010-01-10 浏览: 84 ::

收藏到网摘: n/a

asp.NET 脏字过滤算法 asp.net sql 数据库处理函数命令

我们网站的脏字字典中大概有600多个词，而且会发生变化，因此简单的在数据新增/修改的时候做一次脏字过滤是不够的。在网站从.NET 1.1到2.0改版的时候，对新版的测试发现旧的脏字过滤算法耗费的时间过长，需要做一些优化。旧的算法是简单对每一个脏字调用一遍 string.replace，当然是用了StringBuilder。http://www.ruanchen.com/"codetitle">复制代码代码如下:

 
private Dictionary<string, object> hash = new Dictionary<string, object>(); 
private BitArray firstCharCheck = new BitArray(char.MaxValue); 
private BitArray allCharCheck = new BitArray(char.MaxValue); 
private int maxLength = 0; 

其中hash只使用到了key，value都置为null。也可以使用.NET 3.5中的HashSet，或者使用Dictionary<string, int>，记录脏字的出现次数。
初始化这些数据的方法如下：

复制代码代码如下:

 
foreach (string word in badwords) 
{ 
if (!hash.ContainsKey(word)) 
{ 
hash.Add(word, null); 
maxlength = Math.Max(maxlength, word.Length); 
firstCharCheck[word[0]] = true; 
foreach (char c in word) 
{ 
allCharCheck[c] = true; 
} 
} 
} 

判断脏字是否出现在一个字符串中的代码如下：

复制代码代码如下:

 
int index = 0; 
int offset = 0; 
while (index < text.Length) 
{ 
if (!firstCharCheck[text[index]]) 
{ 
while (index < text.Length - 1 && !firstCharCheck[text[++index]]) ; 
} 
for (int j = 1; j <= Math.Min(maxlength, text.Length - index); j++) 
{ 
if (!allCharCheck[text[index + j - 1]]) 
{ 
break; 
} 
string sub = text.Substring(index, j); 
if (hash.ContainsKey(sub)) 
{ 
return true; 
} 
} 
index++; 
} 
return false; 

替换的代码就不贴了，跟判断包含类似，只不过不能发现一个脏字后就退出循环。如果出现脏字的可能不是很高，就没有必要创建一个临时的StringBuilder。
进一步，可以通过借鉴.NET源码中string.GetHashCode()的实现，避免一次Substring的调用，提高性能。也可以设计递进的HashCode实现，比如"helloworld"可以用"helloworl"的hash进一步计算，优化效率。
另外，也可以抛弃Hash，改用排序过的string[]，用BinarySearch来判断sub是否为脏字。BinarySearch的结果是可以递进的，即可以用查找"helloworl"的结果来加速判断"helloworld"。（已测试，700个脏字，BinarySearch的效率有时会低很多。）
最后发一点牢骚，当初最早发的时候（http://www.ruanchen.com/rticle/20576.htm），仅仅是为了说明下自己的算法，具体的代码甚至还有一点错误。两个事情让我觉得心里不很爽，一个是被乱七八糟的无数网站转载而不说明出处，导致我后来的改进和错误修正达不到效果，二是一些人都愿意看到最终的代码，而不是理解我想要表达的最核心的设计，然后自己去考虑实现。

asp.NET 脏字过滤算法 asp.net sql 数据库处理函数命令

ASP.NET 中的 asp.NET 脏字过滤算法 修改版

评论 (0) All

ASP.NET 中的 asp.NET 脏字过滤算法修改版