最后我们给出 http://www.w3.org/站点上的robots.txt: # For use by search.w3.org User-agent: W3Crobot/1 Disallow: User-agent: * Disallow: /Member/ # This is restricted to W3C Members only Disallow: /member/ # This is restricted to W3C Members only Disallow: /team/ # This is restricted to W3C Team only Disallow: /TandS/Member # This is restricted to W3C Members only Disallow: /TandS/Team # This is restricted to W3C Team only Disallow: /Project Disallow: /Systems Disallow: /Web Disallow: /Team 使用Robots META tag方式 Robots META tag 允许HTML网页作者指出某一页是否可以被索引,或是否可以用来查 找更多的链接文件。目前只有部分robot实施了这一功能。 Robots META tag的格式为: <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 象其他的META tag一样,它应该放在HTML文件的HEAD区: <html> <head> <meta name="robots" content="noindex,nofollow"> <meta name="description" content="This page ...."> <title>...</title> </head> <body> ... Robots META tag指令使用逗号隔开,可以使用的指令包括 [NO]INDEX 和[NO] FOLLOW。INDEX 指令指出一个索引性robot是否可以对本页进行索引;FOLLOW 指 令指出robot是否可以跟踪本页的链接。缺省的情况是INDEX和FOLLOW。例如: <meta name="robots" content="index,follow"> <meta name="robots" content="noindex,follow"> <meta name="robots" content="index,nofollow"> <meta name="robots" content="noindex,nofollow"> 一个好的Web 站点管理员应该将robot的管理考虑在内,使robot为自己的主页服务, 同时又不损害自己网页的安全。 |