最新公告
  • 欢迎您光临源码库,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入
  • 超级蜘-蛛-池之robots的优化

    一、robots概述

    ①robots.txt纯文本文件,网站管理员可以在这里声明该网站不想robots访问的部分,所以robots优化直接影响着搜索引擎对网站的收录情况;

    ②robots.txt必须放置在一个站点的根目录下,并且文件名必须全部小写:www.cjzzc.com/robots.txt;

    超级蜘-蛛-池之robots的优化插图源码资源库

    ③就算你的网站全部内容都可以被搜索引擎收录,那也要写个空的robots.txt;因为有的服务器的设置会使没有robots.txt的时候返回200状态码和相应的错误信息;

    超级蜘-蛛-池之robots的优化插图源码资源库

    二、robots的写法

    # robots.txt file from http://www.cjzzc.com/

    # All robots will spider the domain

    User-agent:*

    Disallow:

    1、允许搜索引擎访问所有部分(一般可不写)

    User-agent:*

    Disallow:

    2、禁止搜索引擎访问任何部分

    User-agent:*

    Disallow:/

    3、禁止搜索引擎访问某几个部分

    User-agent:*

    Disallow:http://www.cjzzc.com/404.html

    4、允许某个搜索引擎访问

    User-agent:Baiduspiter

    Disallow:/

    5、禁止所有搜索引擎蜘蛛访问某几个目录下的内容及文件

    User-agent:*

    Disallow:/sss/

    Disallow:/aaa/

    8、禁止除了百度蜘蛛以外的所有搜索引擎抓取任何内容:

    User-agent:Baiduspiter

    Disallow:/

    User-agent:*

    Disallow:/

    9、$:通配符,匹配url结尾的字符。禁止百度蜘蛛抓取所有.jpg文件

    User-agent:Baiduspiter

    Disallow:.jpg$

    10、禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。

    User-agent:*

    Disallow:/admin/

    Allow:/images/

    11、禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。

    User-agent:*

    Disallow:/admin/*.php$

    Allow:/admin/*.asp$

    12、禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,如:index.php?id=8)。

    User-agent:*

    Disallow:/*?*

    1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
    2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
    3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系管理员处理!
    6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!

    源码资源库 » 超级蜘-蛛-池之robots的优化