当前位置: 首页 > 图文教程 > 网站运营 > 建站经验 > 控制搜索引擎访问和索引你的网站

建站经验
11个PR7以上的国内网址导航站
国内现状 目前没几个博客能赚钱
网站推广最重要的2点 细节和坚持
给想通过博客赚钱的站长朋友的一些建议
网络推广经验 前期准备和发帖原则
盈利模式 细分市场是站长梦开始的地方
把握博客更新时间
总结网站推广中需要避免的12种推广方式
淘宝网店推广重点 抓住潜在的购买客户
建站杂谈 2010年web领域的预测
给用户一个无法拒绝的回访理由
建站案例 地方门户网站运营的心酸事
制作英文网站的基本流程
网站备案 图文教程
独立域名的英文博客从WordPress切换到Blogger的步骤
大胆尝试电子商务 改变传统盈利思路
404页面设计全攻略
以收购网站为名的商业间谍不可不防
运营企业网站来实现营销目标的经验
淘宝的站内搜索能改变搜索格局?

建站经验 中的 控制搜索引擎访问和索引你的网站


出处:互联网   整理: 软晨网(RuanChen.com)   发布: 2009-09-26   浏览: 89 ::
收藏到网摘: n/a

原文:Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日 上午 11:36:00

我经常被问到 Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中?网站内容发布者能够指定部分网站不被搜索吗?好消息是,网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。

文件 robots.txt 是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

文件 robots.txt 有什么用?

互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力,但是那只是“网海一粟”。 (对 Douglas Adams 致以诚挚的道歉)

象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。

为了做到这一点谷歌的一些电脑不断抓取网站,他们有一个谷歌所知道的所有网站的名单,他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说,你是愿意让 Googlebot 访问你的网站,这样你的网页才可以被人们在谷歌搜到。

然而,对你的网站上的某几页,你可能不想让谷歌索引。举例来说,你可能有一个目录包含内部日志,或者你可能有些新闻文章只能在支付费用后才能访问。你可以通过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的,它允许你用一套精密分层控制搜索引擎对你网站的访问。

精细控制

除了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外,你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点,你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之,robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子,它是一个 robots.txt 文件。

User-Agent: Googlebot
Disallow: /logs/

User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意,你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。

禁止访问单个文件

如果你有一篇只有注册用户才能访问的文章,你一定想让它排除在谷歌的结果之外。为了做到这一点,你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像:

<html>
<head>
<meta name="googlebot" content="noindex">
...

这段代码会阻止谷歌索引此文件。标签 META 特别有用,如果你只被允许编辑单个文件,而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

了解更多

你可以在 http://www.robotstxt.org/谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息,包括:

如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件?

我们也在我们的站长博客里写了一些关于 robots.txt 的帖子,也许对你有用。例如:

使用 robots.txt 文件
Googlebot 汇总

这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html

下次……

即将推出:关于详述 robots 和 metatags 使用的帖子,和关于一些对常见情况的具体例子。

评论 (0) All

登陆 还没注册?