作业帮 > 高中作文 > 教育资讯

robots协议

来源:学生作业帮助网 编辑:作业帮 时间:2024/09/25 22:26:37 高中作文
robots协议高中作文

篇一:robots协议的玩转经验

winacm:谈谈robots协议的玩转经验 2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反“Robots协议”抓取、复制其网站内容的不正当竞争行为一案,索赔金额高达一亿元。这可以看做2012年下半年“3B大战”的继续。在此次索赔案件中,百度称自己的robots文本中已设定不允许360爬虫进入(确实也是如此),而360的爬虫依然对“百度知道”、“百度百科”等内容进行抓取倩碧小黄油。 其实早在2012年11月初,针对双方摩擦加剧的情况,在中国互联网协会的牵头下,包括百度、新浪、奇虎360在内的12家互联网公司已共同签署了《互联网搜索引擎服务自律公约》,在公约第七条承诺“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。 今天就找个机会聊聊妊娠纹霜一夜成名的robots协议。 初识robots协议

一、什么是robots

要了解robots协议首先要了解robots,本文说的robots不是《I,robot》里的威尔·史密斯,不是倩碧三部曲《机器人总动员》里的瓦力和伊娃,不是《终

结者》系列中的施瓦辛格。什么?这些经典电影你都不知道?好吧,算我想多了。本文的robots特指搜索引擎领域的web robots,这个名字可能很多人不熟悉,但是提到Web Wanderers,Crawlers和Spiders很多人可能就恍然大悟了,在中文里我们统称为爬虫或者网络爬虫,也就是搜索引擎抓取互联网网页的程序。

同学们都知道网页是通过超级链接互相关联起来的,从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的流程可以简化如下:

1.喂给爬虫一堆url,我们称之为种子(seeds)

2.爬虫抓取seeds,解析html网页,抽取其中的超级链接

3.爬虫接着抓取这些新发现的链接指向的网页

2,3循环往复

二、什么是robots协议

了解了上面的流程就能看到对爬虫来说网站非常被动,只有老老实实被抓取的份。存在这样的需求:

1.某些路径下是个人隐私或者网站管理使用,不想被搜索引擎抓取,比如说日本爱情动作片(玩笑话,呵呵)

2.不喜欢某个搜索引擎,不愿意被他抓取,最有名的就是之前淘宝不希望被百度抓取

3.小网站使用的是公用的虚拟主机,流量有限或者需要付费,希望搜索引擎抓的温柔点

4.某些网页是动态生成的,没有直接的链接指向,但是希望内容被搜索引擎抓取和索引

网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。Robots协议,学名叫:The Robots Exclusion Protocol,就搜索引擎抓取网站内容的范围作了约定,包括网站是否希望被搜索引擎抓取,哪些内容不允许被抓取,把这些内容放到一个纯文本文件robots.txt里,然后放到站点的根目录下。爬虫抓取网站内容前会先抓取robots.txt,据此“自觉地”抓取或者不抓取该网页内容,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。 需要注意的是robots协议并非是规范,只是行业内一个约定俗成的协议。什么意思呢?Robots协议不是什么技术壁垒,而只是一种互相尊重的协议,好比私家花园的门口挂着“闲人免进”,尊重者绕道而行,不尊重者依然可以推门而入,比如说360。因此不要错误的认为只要在网站下定义了robots.txt爬虫就不抓取,这个取决于该蜘蛛是否遵循robots协议。 说了这么多,看几个有名的例子感觉一下先: 例1:淘宝 User-agent: Baiduspider Disallow: / User-agent: baiduspider Disallow: / 程序猿,你懂的。这不就是淘宝不想让百度抓取 例2:京东 User-agent: * Disallow: /?* Disallow: /pop/*.html User-agent: EtaoSpider Disallow: / 这个也不复杂,京东有2个目录不希望所有搜索引擎来抓。同时,对etao完全屏蔽。 三、基本玩法

1、robots.txt的位置

说简单也简单,robots.txt放到一个站点的根目录下即可。说复杂也有点小复杂,一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。什么意思呢?看个例子最清楚:

百度网页搜索

百度知道

这两个robots.txt的内容是不同的,也就是说百度网页搜索和百度知道的抓取策略可以由自己独立的robots.txt来控制,井水不犯河水。

2、robots.txt的内容

最简单的robots.txt只有两条规则:

1.User-agent:指定对哪些爬虫生效

2.Disallow:指定要屏蔽的网址

整个文件分为x节,一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x>=0,y>0,z>0。x=0时即表示空文件,空文件等同于没有robots.txt。

下面详细介绍这两条规则:

User-agent

爬虫抓取时会声明自己的身份,这就是User-agent,没错,就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫。

举例说明:google网页搜索爬虫的User-agent为Googlebot,下面这行就指定google的爬虫。

User-agent:Googlebot

如果想指定所有的爬虫怎么办?不可能穷举啊,可以用下面这一行: User-agent: *

可能有的同学要问了,我怎么知道爬虫的User-agent是什么?这里提供了一个简单的列表:爬虫列表

当然,你还可以查相关搜索引擎的资料得到官方的数据,比如说google爬虫列表,百度爬虫列表

Disallow

Disallow 行列出的是要拦截的网页,以正斜线 (/) 开头,可以列出特定的网址或模式。

要屏蔽整个网站,使用正斜线即可:

Disallow: /

要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线:

Disallow: /无用目录名/

要屏蔽某个具体的网页,就指出这个网页。

Disallow: /网页.html

Disallow还可以使用前缀和通配符。

要屏蔽目录a1-a100,可以使用上面的方式写100行,或者

Disallow:/a

但是需要注意,这样会把任何以a开头的目录和文件也屏蔽,慎用。如果需要屏蔽a1-a100,但是不屏蔽a50,怎么办?同学们可以思考一下,这个问题我们留到下一节。

要阻止特定类型的文件(如 .gif),请使用以下内容:

Disallow: /*.gif$

*匹配任意个字符,$匹配url结束,具体就不解释了吧,不了解的同学去自学一下通配符。

提示一下,Disallow的内容区分大小写。例如,Disallow: /junkfile.asp 会屏蔽 junkfile.asp,却会允许Junk_file.asp。

篇二:Robots协议:友好沟通工具而不是竞争武器

Robots协议:友好沟通工具而不是竞争武器 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

在2012年由中国互联网协会举行的《互联网搜索引擎服务自律公约》签约仪式上,百度、即刻搜索、奇虎360、搜狗等12家搜索引擎服务企业签署公约,共同承诺:互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

Robots协议初衷:保护网站内部信息,保护服务器流量平衡

在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,主要有如下原因:

一、快速抓取导致网站过载,影响网站正常运行;

二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

Robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。1994年,Robots协议由荷兰籍网络工程师Martijn Koster首次提出,Martijn Koster也因此被誉为“Robots之父”。之后直到2008年6月,Yahoo、Google和MSN Live Search共同通过非官方途径宣布采纳该标准,各大搜索引擎公司开始对Robots协议进行商业研究,各种公司标准的Robots协议开始产生。

对于网站来说,设置Robots协议主要有三个目的,首先是保护网站内部信息不被搜索引擎爬虫抓取;其次是引导爬虫不要抓取对用户没有价值的信息;最后是为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。

但通常来说,用户在利用搜索引擎检索到内容网站时,对内容网站并不构成伤害,反而会为内容网站带来更多用户。绝大多数网站非但不会使用Robots协议禁止搜索引擎抓取,

反而希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列,由此也催生出搜索引擎竞价排名、SEO(搜索结果优化)等商业模式。

Robots协议使用现状:绝大多数网站对搜索引擎一视同仁

Robots协议也就是robots.txt文本文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果robots.txt文件不存在,搜索爬虫将会抓取网站上所有没有被口令保护的页面。

商业网站大多会在robots.txt中提供SiteMap文件链接地址,为搜素引擎指路,方便爬虫更好地抓取网站内容。此外,网站也可以使用robots.txt屏蔽网站中一些比较大的文件,如:视频、图片等,节省服务器带宽,也可以屏蔽网站的一些死链接。

Robots协议的写法包括两类:

一类是对所有的网络爬虫一视同仁,使用UserAgent * 这样的写法,明确写明不允许抓取的目录,这也是国际上商业网站Robots协议的主流用法,在Alexa的网站排行榜上选取前100个有Robots协议文件的国外网站,其中有85个站点使用了Original Robots协议规范,即不设置任何黑白名单,对所有爬虫一视同仁,或只针对部分爬虫做细微的规则指导,但是不禁止任何爬虫抓取;

另一类是如Facebook、LinkedIn、Twitter这种采用黑白名单机制写robots.txt的网站,在robots.txt中针对每种网络爬虫规定哪些目录不能抓取,LinkedIn在robots.txt文件中还列出了申请将网络爬虫加入白名单中的联系方法。Alexa上有Robots协议文件的TOP100网站中,有15个网站在robots.txt中设置了黑白名单,但只有一个是对通用搜索引擎的爬虫进行了黑名单设置,其他都是针对一些非通用搜索引擎的特殊爬虫设置黑名单。 Robots协议的误区:并非真正意义的“协议”

Robots协议虽然名为“协议”,但只是行业惯用的说法,它并非真正意义上的协议,也不受任何机构保护。

“Robots之父”Martijn Koster对Robots协议的性质进行了如下阐述:Robots协议是一个未经标准组织备案的非官方标准,它也不属于任何商业组织。本协议不受任何机构保护,所有现有和未来的机器人不一定使用本协议。Robots协议是Robot创作者们向互联网社区提供的用来保护互联网服务器免受骚扰的一个通用工具。(来自:WWw.SmhaiDa.com 海达范文网:robots协议)

早在1997年,Martijn Koster曾向IETF(互联网工程任务组)提交申请,试图把Robots协议作为该组织规范,但被IETF拒绝。之后,国际电信联盟(ITU)、万维网联盟(W3C)的规

范也同样拒绝采纳Robots协议。欧美电信专家担心,由于Robots协议包含排斥性条款,搜索巨鳄可能会利用Robots协议的条款,迫使某些热门网站与其签署排他性协议,从而将后起竞争者挡在门外,维护垄断。

在2012年11月1日,中国互联网协会在北京举行《互联网搜索引擎服务自律公约》签约仪式。据中国互联网协会胡启恒理事长介绍,“本次公约的制定充分体现了互联网的精神,一方面,公约对非法律条文规定、国际互联网界拥有共识的Robost协议给予了的充分的尊重和肯定。另一方面,互联网是生而自治的,在日后随着互联网技术应用的不断发展,还会有许多新兴问题出现,同时也希望业界能够基于诚信、自主自治的互联网精神来解决互联网的争议,共同讨论和解决出现的问题。”

《互联网搜索引擎服务自律公约》明确规定,“互联网站所有者设置Robots协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用Robots协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。” 百度、即刻搜索、盘古搜索、奇虎360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等12家发起单位在现场共同签署了《互联网搜索引擎服务自律公约》,表示将自觉遵守自律公约各项规定,不断提升服务水平,努力改善用户体验,积极为搜索引擎服务行业的健康发展贡献力量。

篇三:怎么书写一个保护网站隐私的Robots协议

怎么书写一个保护网站隐私的Robots协议(robots.txt)

作者:小A 原文出处:http://seo.qjzb.net

我相信很多刚接触网站推广的站长都和廊坊seo小A我一样是从虚拟空间开始起家的,一开始的流量,带宽都是有限制的,而搜索引擎对网站的抓取必然也是要占用流量的,所以避免搜索引擎“无效的抓取”并指引其进行高效的抓取就显得十分重要了,那我们如何才能屏蔽掉这些目录呢?这时我们只需要书写一个国际互联网界通行的Robots协议(也就是robots.txt)便可解决这一难题!

什么是Robots协议(robots.txt)?

Robots协议是国际互联网界通行的道德规范,网站通过它告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。

Robots协议(robots.txt)的基本语法是什么,它是如何奏效的? 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

基本语法

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

User-agent:描述搜索引擎robot的名字

即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部

Disallow: 描述不希望被访问的一组URL

设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型

Allow: 描述希望被访问的一组URL 设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。

Sitemap:指示蜘蛛去爬取网站的sitemap文件

关于通配符:"$" 匹配行结束符;"*"匹配0或多个任意字符。

怎么书写一个保护网站隐私的Robots协议(robots.txt)? 下面廊坊seo小A以我的网站国际电梯网为例,教大家最基本的Robots协议(robots.txt)的写法。通过Robots协议(robots.txt),小A我主要想实现的效果是:

1.要求所有搜索引擎遵循我的这个协议

2.禁止蜘蛛抓取我的后台地址和typecho的安装路径。

3.指引蜘蛛去抓取我的sitemap

那么我可以这样书写我的Robots协议(robots.txt) User-agent: * Disallow: /admin/ Disallow: /install/

Sitemap:http://www.weee.cc/sitemap.xml 大家来看我书写的这个robots.txt文件后,它告诉搜索引擎不要收录/admin/和/install/这两个目录,搜索引擎是按照指定去执行了,然而对于咱们的网络爱好都来说,很容易就能看出这两个目录是什么来,根据这两条规则便轻松发现了这个网站的后台管理目录。

那么我们该如何来保护网站后台信息呢?这里廊坊seo小A以我的博客101011来介绍两种书写方法,我要禁掉的是/seo-admin/和/seo-install/这两个目录

1. 将robots.txt中的后台目录信息去掉,采用泛指的方法。 User-agent: *

Disallow: /seo或 Disallow:/seo*/

Sitemap:http://seo.qjzb.net/sitemap.xml

这种写法并不是禁止收录/seo目录也是禁止收录/seo开头的网页,因此 /seo-admin/也属于不被爬行和收录的行列了,保护了网站隐私。

2.将robots.txt换种写法采用允许某些目录的方法,即允许的全部列出,其它全部采用不允许,好比只许访问/bbs 和 /seo目录 User-agent: *

Allow: /bbs/

Allow: /seo/ Disallow: /

Sitemap:http://seo.qjzb.net/sitemap.xml

robots.txt按照顺序执行,一定要把Allow写在上面,否则整站都不允许收录了

按照这两种方法我们就可以保护我们网站的隐私了。

篇四:由Robots协议引发的不正当竞争问题思考

由Robots协议引发的不正当竞争问题思考 作者:张嘉琳

来源:《法制与社会》2013年第23期

摘 要 近年来网络经济的蓬勃发展对互联网行业竞争行为的法律保护提出了新挑战。本文就百度与奇虎360对搜索引擎Robots协议的不正当竞争行为进行分析,提出了对不正当竞争问题的新思考,从而完善我国的《反不正当竞争法》,规制网络竞争行为,促进网络经济的健康发展。

关键词 Robots协议 搜索引擎 不正当竞争行为 法律规制

作者简介:张嘉琳,浙江工业大学法学院。

中图分类号:D922.29文献标识码:A文章编号:1009-0592(2013)08-096-02

随着谷歌退出中国大陆市场,百度作为全球最大的中文搜索引擎、最大的中文网站,其在国内的市场占有率遥遥领先于其他搜索引擎。据艾瑞最新发布的《2013年Q1中国搜索引擎市场核心数据报告》显示,2013年第一季度中国搜索引擎市场中,百度市场份额占80.6%。奇虎360凭借领先的互联网安全服务,成为中国前三大互联网公司之一。2012年8月16日,奇虎360推出360综合搜索。据经济之声《天下公司》报道,360综合搜索5天内就拿下中国搜索市场10%的份额,成为仅次于百度的中国第二大搜索引擎。8月28日,3百大战正式爆发。百度反击360,用户通过360综合搜索访问百度知道、百科、贴吧等服务时,将会强行跳转至百度首页。随后360针对百度进行反制,将网址导航搜索框中百度产品全部撤掉。2013年2月23日,百度以奇虎360违反“Robots协议”抓取复制自己网站的内容构成不正当竞争为由将奇虎360告至北京市第一中级人民法院,并索赔1亿元。4月27日,百度起诉360不正当竞争案正式宣判,判决360败诉,要求360停止不正当竞争行为、连续15日在首页道歉声明,赔偿损失45万元。Robots协议作为行业惯例,没有得到法律的硬性规定。但百度与奇虎360在搜索引擎上的这一场较量中,Robots协议也正是其争议所在。由此,笔者产生了由Robots协议引发的不正当竞争问题思考,从而加强对互联网不正当竞争行为的监管,维护网络市场秩序,促进中国搜索市场健康有序发展。

一、Robots协议的争议

(一)Robots协议概述:

“Robots协议”,又称机器人协议或爬虫规则,实质为robots.txt文件。此协议通过约定搜索引擎抓取网站内容的范围,告诉搜索引擎的爬虫程序,此网站中的内容哪些可以抓取哪些不可以抓取。每家搜索引擎,都会有一种爬虫程序(Spider),也称作机器人(Robot),它们能自动采集互联网上的网页相关信息,并存储到数据库中。搜索引擎的爬虫程序,首先会读取网

站的robots.txt中的声明,再确定抓取信息的权限 。网友有这样一个比喻:robots协议就好比你到一个景点旅游,有一部分景点写着暂停开放,这样游客就不能进入。类比过来,这个暂停开放的标志就是robots协议,这个游客就是指搜索引擎 。

(二)Robots协议的法律性质

目前,尚未有某个国家对Robots协议的法律性质作出明确规定。国外对Robots协议的法律纠纷案例评判主要有Bidder'sEdge违反爬虫协议抓取Ebay商品信息案、Google未经许可抓取部分网站内容等。国内外基本公认的Robots协议仍旧只是搜索行业通行的道德规范,代表一种商业伦理和契约精神,是维护互联网世界隐私安全的重要规则。但它并不是法律强制性规定,这就需要搜索引擎自觉遵守。遇到不自觉的信息采集者,完全可以绕过它采集任意数据,包括网站后台数据和个人信息等,这就构成了很大的隐私威胁 。因此我国的淘宝、京东、新浪微博等拒绝搜索引擎抓取网页信息。

也正是由于Robots协议法律性质的特殊性,当网络经营者违反Robots协议时对其争议不断。因为他们认为Robots协议不具有法律约束性,那么不存在违反和违法的问题,也不存在不正当竞争的问题。但是,一旦Robots协议被打破,必将引发互联网秩序的一场大混乱。

二、不正当竞争行为与Robots协议

(一)互联网不正当竞争行为概述

互联网时代的兴起带动了网络一系列行业的发展。利益的冲突带来了激烈的商业竞争,随之而来的还有互联网不正当竞争行为。近年来我国的互联网不正当竞争行为频频发生,但是我国法律尚未对互联网不正当竞争行为作出明确界定,这也使得对互联网不正当竞争行为的争议不断。

我国《反不正当竞争法》第2条第2款规定,“本法所称不正当竞争行为,是指经营者违反本法规定,损害其他经营者的合法权益,扰乱社会经济秩序的行为”。互联网不正当竞争行为客观上是违反公认的商业道德、违背诚实信用原则的行为。我国《反不正当竞争法》第2条

第1款规定,“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。”在原有不正当竞争行为概念界定的基础上,笔者认为,互联网不正当竞争行为即指经营者为争取商业利益或其他优势,以互联网为媒介和平台而实施的损害其他经营者合法权益,违反商业道德和诚实信用原则的行为。

(二)360综合搜索引擎的不正当竞争行为分析

我国《反不正当竞争法》第二章规定了11种不正当竞争行为,包括虚假宣传、假名冒牌、低价倾销、不当奖售、商业贿赂、背愿搭售、限购排挤滥用权力、侵犯商业秘密、诋毁商业名誉、通谋投标行为。在3百大战中,百度公司认为其对百度搜索、百度知道、百度百科、百度新闻、百度音乐、百度旅游等栏目的内容享有著作权及其他合法权益。百度在Robots文

本中已设定不允许360爬虫进入的情况下,360爬虫却仍然对“百度知道”、“百度百科”等百度网站内容进行抓取、复制,并直接以快照形式向网民提供,严重侵害百度的合法权益 。在3百大战的判决中,法院指出360针对百度实施的“对搜索结果的插标”行为和“劫持百度搜索框流量”行为均被判定为不正当竞争,构成搭便车行为。360综合搜索引擎构成不正当竞争行为满足以下4个条件:

1.不正当竞争行为主体是360奇虎公司经营者。

2.百度已明确设定360爬虫不得进入百度网站抓取复制其内容,但360仍旧扒取百度网站内容,可见360的主观方面是故意。

3.360搜索在未经其他经营者许可的情况下,仅以单方面的认定,即通过修改其他经营者向用户提供的网络代码的方式,在他人经营的搜索引擎服务的页面上任意进行标注,对他人向用户提供的服务内容进行了改变 。而360搜索引擎对谷歌等其他搜索引擎搜索内容未进行插标。同时擅自改变原告在其搜索框上向用户提供的下拉提示词。其竞争行为违反诚实信用原则和公认的商业伦理道德。

4.360搜索确实损害了百度经营者和其他消费者的合法权益,并破坏了网络社会经济秩序。

然而,奇虎360坚持认为其行为没有违反《反不正当竞争法》,360综合搜索不是市场竞争工具,并且Robots协议非法律强制性规定,不存在违反的问题。我国的《反不正当竞争法》的主要立法目的和基本原则就是维护商业伦理。《保护工业产权巴黎公约》第10条之二所规定的,不正当竞争是指“在工商业活动中违反诚实惯例的任何竞争行为”,“违反诚实惯例”是判断竞争行为是否正当的基本标准。 因此,尽管360综合搜索引擎没有违反具体法律规定,但违反了公认的商业道德和诚实信用原则,构成了不正当竞争行为。

三、互联网不正当竞争行为法律规制的新思考

网络行为的高科技性、广域性、虚拟性、即时性等特点决定了互联网不正当竞争行为有别于传统不正当竞争行为,它具有自己的新特征——高技术性、国际性、便捷性和扩大危害性等。 我国《反不正当竞争法》的第1条规定,“为保障社会主义市场经济健康发展,鼓励和保护公平竞争,制止不正当竞争行为,保护经营者和消费者的合法权益,制定本法。”但当前我国《反不正当竞争法》并没有对互联网不正当竞争行为进行法律规制。如果放任互联网不正当竞争,那么其不仅会影响互联网行业发展,更会对社会经济秩序将产生巨大破坏。国外对互联网不正当竞争一直保持重视。美国的《电子隐私权法》中规定,“将决定权交给消费者,让其切实有效地授权或者拒绝他人采集和使用其个人信息。”尽管国外法律并没有对Robots协议作出明确的法律强制性规定,但因为其已成为一种行业惯例、道德规范,因此市场主体都会遵守协议,公平竞争。而随着互联网经济的商业利益竞争愈加激烈,我国法律却未对其形成全面保护。3百大战中,360公然撕毁Robots协议对整个搜索引擎行业造成巨大的震撼。如何用法律

规则搜索引擎行业的不正当竞争问题迫在眉睫。笔者由本次3百大战产生了对互联网不正当竞争行为法律规制的新思考。

(一)扩大《反不正当竞争法》的适用范围

我国《反不正当竞争法》尚未对互联网不正当竞争行为进行行为界定和标准判断。3百大战中,奇虎360始终认为法律未对违反Robots协议进行明确的规定,因此其行为不存在不正当竞争问题。为了防止此种行为的不断发生,我们应扩大《反不正当竞争法》的适用范围,加入网络经营主体和网络不正当竞争中的具体行为。

(二)采纳新型技术标准

互联网的迅速发展催生了新技术的不断发展。而现代互联网是依据技术协议构建秩序的,这些协议规范着信息高速公路上的通行者,没有警察但是有红绿灯,这是严格的技术规范世界。 尽管目前法律未对部分协议表示明确规定,但是新型技术标准的采纳可以为法律提供依据,从而完善法律。

(三)增强行业自律

3百大战中,奇虎360作为中国三大互联网公司之一更应该遵守互联网行业规则。Robots协议是国内外公认商业道德和法律精神。如果某一网络经营者不遵守这种国际惯例和规则,就无法融入互联网世界,并且也将对其他经营者造成重大损失,最终将破坏整个互联网经济秩序。尽管已有Robots协议的存在,企业之间、行业、政府等仍可以通过各种形式建立约束不正当竞争的规则公约或其他强制措施。因此,要规范互联网不正当竞争行为必须增强行业自律。

(四)保护消费者合法权益

3百大战中,深受奇虎与百度的连续反击与被反击行为伤害的仍旧是消费者。保护消费者合法权益,避免3Q大战、3百大战之类的恶性商业战争再度重演。当然,消费者能享有合法权益是建立在安全有序的行业秩序和市场秩序上的。因此,保护好消费者的合法权益不是一蹴而就的,必须循序渐进,是一个长期的过程。

互联网经济是现代经济的重要组成部分。3百大战中,百度和奇虎360在市场交易中,应遵循自愿、平等、公平、诚实信用原则,遵守公认的商业道德,参与市场公平竞争。搜索引擎行业更需要遵守其行业规范和商业伦理。我们应当重视规制互联网不正当竞争行为,建立网络经济的良好秩序。

注释:

柳絮飞.网络爬虫攻防内幕.CFan杂志.第21期.

百度百科.http://zhidao.baidu.com/question/474663816.html.

姜姝.“美杜莎”后,爬虫协议引3百再战.中国电脑教育报.2013年3月4日.第023版. 百度诉360不正当竞争案判决书.2013年4月27日.

孔祥俊.反不正当竞争法新论.人民法院出版社.2001年版.

王京歌.从3Q对战看网络不正当竞争行为的法律规制.商丘师范学院学报.第28卷.第4期. 张平.《反不正当竞争法》的一般条款及其适用——搜索引擎爬虫协议引发的思考.法家论坛.2013(3).

篇五:从行业惯例的角度分析robots协议的司法约束力

从行业惯例的角度分析robots协议的司法约束力

作者:吴水兰

来源:《青年与社会》2013年第13期

【摘 要】robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。那么,当百度基于robots协议诉奇虎不正当竞争时,法院该判令奇虎遵守robots协议吗?文章以此案例导出,通过对robots协议的法律性质作出认定,从行业惯例的角度去分析robots协议的司法约束力,并认为在法律缺失的条件下,符合习惯构成要件的robots协议应该得到遵守。

【关键词】robots协议;爬虫协议;搜索引擎;法律性质;行业惯例

一、案例简况

2012年8月16日,360搜索上线并成为360网址导航的默认搜索,360搜索将百度多项业务纳入搜索范围供用户选择,如百度知道,百度音乐,百度地图等纳入自己的综合搜索。这一行为遭到百度的强烈抵制,随后百度通过技术手段,令这些搜索请求无法通过360直达结果页面,而是跳转至百度首页,让用户重新搜索。双方的争议随后进入司法程序,2012年10月16日,百度将奇虎360 诉诸北京市第一中级人民法院。

百度不允许360搜索直接访问百度的内容,其依据的是国外成型已久的所谓搜索行业规范——robots协议。百度认为,百度知道、百科、贴吧等内容是百度所有的内网内容,百度有权决定其内容是否要被360综合搜索抓取与展示,而360综合搜索无视百度在robots协议中未对其进行授权的事实,对百度知道、百度百科等内容进行强行抓取,违背行业规范,涉嫌侵犯著作权、不正当竞争。奇虎360则认为,“robots.txt仅仅是指导和提示搜索引擎蜘蛛程序,善意的提示性TXT文件,既不是法规或标准,也不是合约,因而不存在违反与不违反的问题”。百度既是搜索引擎,也是内容网站,百度百科和百度知道等内容的robots协议仅针对360综合搜索,其他引擎如谷歌搜索则可以顺利抓取,这是一种歧视性的行为,是假robots协议之名阻止360进入搜索市场,是不正当竞争。并且,百度百科和百度知道等都是公开的信息,是网民一点一滴贡献出来的,允许其它搜索引擎抓取就正说明不涉及隐私的内容,不符合robots协议的适用范围。

本文无意探讨上述双方谁是谁非,只是借助这个案例,告诉大家什么是robots协议,通过对robots协议的法律性质作出认定,从行业惯例的角度去分析robots协议的司法约束力。

二、robots协议的法律性质

robots协议也称爬虫协议、爬虫规则等,就搜索引擎抓取网站内容的范围作了约定,当一个网站不希望其全部或部分内容被搜索引擎收录时,可以通过建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,搜索引擎则通过一种爬虫蜘蛛程序去自动依据这个文件来决定抓取或不抓取该网页内容。robots.txt类似于游览景区的指示牌,为搜索引擎蜘蛛程序爬行于本网站的路径进行提示,同时标明了哪些是开放景区(允许抓取),哪些游客止步景区(不允许抓取)。通常鉴于网络安全与隐私的考虑,每个网站都会设置自己的robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许。例如高校bbs类网站,如有不希望被搜索引擎收录的相关内容,最好设置robots.txt以指示搜索引擎的访问路径,从而限制其蜘蛛程序的访问权限,这就解释了为什么一些bbs的网站内容能被搜索引擎检索到,而另一些则不能。

Robots协议并非强制性法规,而是搜索引擎诞生后,互联网业界经过长期博弈,最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。是为了互联网的和谐发展而制定的一种行业规范,是行业内一个约定俗成的协议,其根本性的权力来源是团体成员的理性契约与集体认同。正如Robots协议创始人Martijn Koster所言,该协议并不是有权机关制定的,不具有强制执行力,任何人都没有义务一定要去遵守这个协议。

事实上,robots协议在20世纪93、94年出现后,几乎被所有的搜索引擎采用,包括最早的altavista、infoseek,后来的google、bing,以及中国的百度、搜狗、搜搜等公司也相继采用这一规则并严格遵循。Robots协议限制搜索引擎的抓取内容,保护网站数据和敏感信息、确保用户个人信息和隐私不被泄露,对“人肉搜索”这类侵犯用户隐私的行为树立了一道屏障,为互联网的和谐发展起着重要的作用,如果某一搜索引擎被禁止访问某一网站全部或者部分内容,该搜索引擎蜘蛛程序就要绕开robots.txt而随意抓取该网站的内容,无视robots.txt的存在,这必然会导致信息提供者保护私有财产的权利无法得到保护和用户的隐私无法得到保障。

此外,中国互联网协会于2012年11月1日在北京举行《互联网搜索引擎服务自律公约》(以下简称“公约”)签约仪式,百度、360等12家搜索引擎服务企业现场签署了该公约。该公约第7条规定,搜索引擎企业要“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”,对于违反公约内容的,相关网站应及时删除、断开连接。从上诉公约内容来看,可以看出网络搜索行业自身已认可robots协议具有国际通行的行业惯例与商业规则的地位。

那么,行业惯例在像我国这样的成文法国家是否可被用来作为司法裁判的依据?惯例成为具有法律拘束力的习惯法应该具备些什么条件?robots协议又是否符合惯例构成要件,得到更强有力的法律保障?以下将逐一分析。

三、行业惯例的法律适用

在我国,法的正式渊源主要是制定法,系指国家机关依照一定程序颁布的,通常表现为条文形式的规范性法律文件,可以直接发生法律效力。法官审理案件,在查明案件事实后,首先要寻找制定法,即在现行法律体系的诸多法律规范中寻找所要适用的法律,或者在没有可资使用的法律时,根据现行法律体系以某种方式提供的素材确立一个规则,然后对所选定或确定的规则进行解释,最后将如此找到和解释的法律适用于争议。在本案中,既没有针对robots协议的现行的法律规定,也找不到相应的法律规则,这种情形就叫做法律漏洞。法律不可能囊括现实生活中的纷繁复杂的状况、也不可能立即对千变万化的社会关系做出调整,法律上的空白、监管的缺失在迅速更新发展的互联网显得更为突出。而对于出现法律漏洞的案件,法官不能因为法无明文而拒绝审判, 所以只能依据法律漏洞补充方法创设规则。一般来说,法律漏洞补充方法具体包括:(1)依惯例补充。这是最首要的方法,依惯例包括依交易惯例、行业惯例和地方惯例。(2)类推适用。是指法官受理的案件法律没有直接加以规定, 但根据该案的主要特征,与某法律规定的情况类似,因而适用规定类似情况的法律。类推,在刑法中因“法无明文规定不为罪”而被严格限制使用,但在民事裁判中却是各国法院普遍采用的漏洞补充方法。(3)目的性限缩。是指一个法律条文所涵盖的案型依立法目的衡量明显过宽, 故应将不该包含在内的案型排除在法律文义之外。(4)目的性扩张。这一解释方法与目的性限缩正好是相反的。是指法律条文所涵盖的案型过窄,依立法目的将本不为该法律条文所涵盖的案型,包括于该法律条文的适用范围之内。(5)一般法律原则。即以诚实信用、公序良俗、禁止权利滥用等法律原则作为评价标准, 以衡量本案事实。

在民事司法领域里,法官不得拒绝裁判,在存在法律漏洞的情况下,法官有义务补充它。因此,法官们不得不通过各种法律漏洞补充方法, 在制定法以外寻找断案的依据。惯例作为法律漏洞的首要补充方法,适用领域非常广泛。

依习惯补充法律漏洞,其根据在于各国民法均与明文规定,于一定条件下习惯有与法律同一的效力。例如,瑞士民法典第1条规定,本法未规定者,审判官依习惯法;无习惯法者,依自居于立法者地位时,所应行制定之法规,裁判之。我国台湾民法1条规定:民事法律所未规定者依习惯;无习惯者,依法理。日本法例第2条:不违反公共秩序及善良风俗的习惯,限于依法令规定被认许者或有关法令中无规定的事项,与法律有同一效力。日本裁判事务须知第3条:民事之裁判,有成文法者依成文法;无成文法者,依习惯;无习惯者,应推考条理裁判之。我国对于习惯能否具有法律效力并没有一个具有宏观指导性的条文予以规范, 但在部分民事立法条文、法律解释中, 针对某些具体问题做了允许法官适用惯例(习惯) 的零星规定。如宪法第4条第4款规定:各民族都有使用和发展自己的语言文字的自由, 都有保持或者改革自己的风俗习惯的自由。物权法第85条规定:法律、法规对处理相邻关系有规定的,依照其规定;法律、法规没有规定的,可以按照当地习惯。合同法第61条规定:合同生效后, 当事人就质量、价款或者报酬、履行地点等内容没有约定或者约定不明确的,可以协议补充; 不能达成补充协议的,按照合同有关条款或者交易习惯确定等等。在实践中,法官以惯例作为断案的依据并不少见,如“曾意龙与江西金马拍卖有限公司、中国银行股份有限公司上饶市分行、徐声炬拍卖纠纷案” 中,最高人民法院判决,其违反“三声报价法惯例”的拍卖行为无效。

在实践过程中,法官适用惯例的规则包括:第一, 无法律方可适用习惯。“民事之裁判,有成文法者依成文法;无成文法者,依习惯”。从该通说可推知,民事案件,如果法律已有规定时, 则没有适用习惯的余地,习惯仅具有补充制定法的效力。第二、当事人对某一事项已有约定的,对惯例的适用不得违背当事人之间的约定,即当事人的约定排斥惯例的适用。第三, 适用惯例不得违背法律的精神。这里的法的精神包括法律普遍适用的原则,如诚实信用、不得损害他人权益。

当然,并不是任何惯例习惯惯例都可以作为司法裁判的法源,法官适用惯例首先需要识别、认定和审查惯例。通常来说,习惯可以被法官认可为具有法律约束力的习惯法要符合以下几个条件:(1)习惯应用的时间已经很长, 是一种事实上的惯行。(2)习惯的内容必须是确定的。(3)人们内心确信, 自愿接受其约束。(4)不违背公序良俗。(5)具有合理性。

(6)需为法律所未规定之事项。(7)必须经过法官的认可。这种认可, 当然是在某一具体案件的审理程序中, 法官明示或者默示地认可某一具体惯例(习惯)。

四、结语

在前述案例中,百度设置的robots.txt,禁止360搜索引擎的蜘蛛程序访问百度网站、百度知道、百度百科和百度贴吧的任何内容。但360搜索依然抓取了百度网站及其相关栏目的网页快照,表明其蜘蛛程序绕过了其设置的robots.txt文件。百度指责360违反robots协议,侵犯著作权及不正当竞争。是否侵犯著作权不是本文讨论的范围,而对于违反robots协议是否涉及不正当竞争,由于此种行为不属于《反不正当竞争法》明确规定的不正当竞争行为,因此只能适用《反不正当竞争法》第2条第1款规定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。”行业惯例历来被视为商业道德的一种,robots协议作为公认的行业惯例和商业规则,其司法拘束力如何就看其符不符合习惯可以被法官认可为具有法律约束力的习惯法的条件。

robots协议自诞生之日起,就成为大多数网站避免被搜索引擎访问而使用的技术手段,而且也得到大多搜索引擎的遵循,使用时间将近20年,俨然成为互联网行业的惯行。虽只是一种自律性质的协议,但已被人们内心确信,自愿接受其约束。且robots协议保护网站数据和敏感信息、确保用户个人信息和隐私不被泄露,对“人肉搜索”这类侵犯用户隐私的行为树立了一道屏障,使得信息提供者可以选择是否将自己所有的信息公布于众,搜索引擎服务商也能高效快速的甄别信息获取的合法性,其合理性经过反复的实践已得到普遍认可。对robots协议的尊重以及对robots.txt的遵守,体现了一种有序竞争的商业道德,对互联网的和谐发展起着非常重要的作用,在法律滞后或者缺失的情况下,如果不遵守这种商业伦理和行业习惯,势必破坏整个行业的平衡。因此,robots协议满足了习惯的所有构成要件,在司法实践中可以强制要求相关搜索引擎遵守。

参考文献

[1] 百度诉奇虎360索赔一亿元法院立案[EB/OL].法制日报网,2013年3月10号.

[2] 杨华权,曲三强.论爬虫协议的法律性质[J].法学论坛,2013年第4期.

[3] 王仲云.法律方法及其运用[J].山东大学学报,2004(6).

[4] 梁慧星.民法解释学[M].中国政法大学出版社,2003.

[5] 朱英,魏文享.行业习惯与国家法令——以1930年行规讨论案为中心的分析[J].历史研究,2004(6).

作者简介:吴水兰,女,中国政法大学2011级法律硕士学院,法律硕士(非法学),研究方向:知识产权。

高中作文