当前位置: 首页 > 图文教程 > 脚本技术 > Python > python 域名分析工具实现代码

Python
Python完全新手教程
Python学习资料
Python入门
一篇不错的Python入门教程
王纯业的Python学习笔记 下载
python的几种开发工具介绍
python编程-将Python程序转化为可执行程序[整理]
在漏洞利用Python代码真的很爽
推荐下python/ironpython:从入门到精通
python 图片验证码代码
wxpython 学习笔记 第一天
python 正则表达式 概述及常用字符
python 生成目录树及显示文件大小的代码
PHP webshell检查工具 python实现代码
phpsir 开发 一个检测百度关键字网站排名的python 程序
Cython 三分钟入门教程
Python中的Function定义方法
Python 流程控制实例代码
Python 字符串定义
Python 第一步 hello world

Python 中的 python 域名分析工具实现代码


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-11   浏览: 148 ::
收藏到网摘: n/a

用python实现域名分析,数据来源金玉米 代码如下:
复制代码 代码如下:

import sys, urllib
import datetime,time
def getDate():
strday=datetime.datetime.now().__str__()
strday=strday.split()[0]
return strday
#url = "http://www.kingnic.com/list/2009-06-16.txt"
def getUrl(dateStr=None):
baseUrl ="http://www.kingnic.com/list/"
if dateStr:
return baseUrl+dateStr+".txt"
thisDate = getDate();
if not thisDate:
print "Error Date!"
return None;
url = baseUrl+thisDate+".txt"
return url
def getSource(url):
source = urllib.urlopen(url).read()
return source
def save(source,filename="domains.txt"):
fp = open(filename,"w")
fp.write(source)
fp.close()
return True;
def loadList(fileName="domains.txt"):
fp = open("domains.txt","r")
source = fp.readlines()
fp.close()
return source;
def getPrefix(domain):
return domain.split('.')[0]
def getPostfix(domain):
return domain.split('.')[1]
def hasMidLine(domain):
if '-' in domain:
return True
else:
return False
def parser(domains):
max =4
min =0
keyword =('sky','see','job')
result=[]
len_num =0;
mid_line_num =0;
for domain in domains:
prefix = getPrefix(domain)
postfix = getPostfix(domain)
domainlen = len(prefix)
if (domainlen < min) or (domainlen > max):
len_num +=1
continue
if hasMidLine(prefix):
mid_line_num +=1
continue
result.append(domain)
print " log : \n"
print "all: \t",len(domains)
print "len not in [%s,%s] \t: %s"%(max,min,len_num)
print "contain '-' :\t",mid_line_num
print "remain:\t",len(result)
return result;
if __name__ == "__main__":
url = getUrl()
source = getSource(url)
save(source)
domains =loadList()
result = parser(domains)
save("".join(result),"result.txt")
print("\n\n\nfinished!!")

输出文件:
domains.txt : kingnic.com 据当天释放的 域名;
result.txt : 符合过滤条件的域名;
log输出:
复制代码 代码如下:

all: 55500
len not in [4,0] : 55019
contain '-' : 32
remain: 449
finished!!

对 后缀、长度和有无“-”过滤,过滤条件有点少,其它以后如有需要再加。