互联网每天都会产生大量信息,如何有效地提取并且利用这些信息成为一大挑战,因此就产生了爬虫技术。爬虫是指按照一定规则自动地抓取互联网信息的程序或者脚本的技术,本质上是一种自动高效提取目标数据的程序或脚本。可按照指令通过遍历网络内容的方式检索、搜集、提取所需数据的软件。爬虫协议(Robots Exclusion Protocol),又称机器人排除协议、机器人协议,是指网站所有者通过一个置于网站根目录下的文本文件,告知搜索引擎的网络爬虫软件哪些网页不应被抓取,哪些网页可以抓取,其本质上是受访网站与搜索引擎之间的一种交互方式。包括我们日常生活中使用的手机APP,也属于网络爬虫的一种计算机程序,是一个可以根据预设的流程自动获取网络数据的程序。
简而言之,网络爬虫实际上就是用提前编写的程序,在遵守相关的逻辑、程序语言规则的情况下对手机APP、各类网站、小程序等中的数据进行浏览和抓取,由此获得自己所需要的相关数据的一种技术。
一、爬虫行为的类型 根据爬虫行为是否遵守了法律法规,以及互联网行业普遍的商业道德与行业惯例,可以将爬虫行为分为正当爬虫行为与不正当爬虫行为。 1. 正当爬虫行为
所谓正当爬虫行为,是指爬取方在使用爬取技术获取信息的过程中没有违反被爬取方的合理意志,遵守了法律法规以及互联网行业普遍的商业道德,并不存在越界的行为。举例而言,若百度在应用爬虫技术爬取某一网站上的信息时,没有违反网站所有者设置的爬虫协议,同时并不存在侵犯著作权等侵权行为,亦不违反相关行业惯例与商业道德,则百度爬虫行为可以被评价为正当爬虫行为,反之则为不正当爬虫行为。只有不正当爬虫行为才需要进行违法性评价,才会受到法律规制。 2.不正当爬虫行为
所谓不正当爬虫行为,是指爬取方在使用爬取技术获取信息的过程中存在违反被爬取方的合理意志、违反法律法规、违反互联网行业普遍的商业道德等一项或多项情形的行为。 爬虫行为涉及爬取方和被爬取方两方,实务中大多数不正当行为发生在爬取一方。爬取方在爬虫行为中处于主动地位,是爬虫行为的发起者,因此爬取方的不当行为主要是发生在应用爬虫技术的过程中,爬取方的不当之处主要是爬取方无视被爬取方的合理意志复制相关信息。对于这一不当行为进行界定时需要注意以下两点:第一点是关于爬取方无视被爬取方的合理意志的判断,主要依据的是被爬取方所设置的爬虫协议,看爬取方有无违反合理爬虫协议之处,若有则代表其违反了被爬取方的意志;第二点是注意此处的复制相关信息仅指以网页快照的形式进行复制,而不包括超链接的形式。这是由于超链接只包含了单纯的网页地址,通常网站的目的是通过丰富的网站内容来吸引网络用户,在增加网络用户流量的同时实现网站的商业目的或宣传目的,故而单纯提供网页地址的行为不仅仅不会给被爬取网站带来实际损失,还会带来流量。 因此,爬虫行为所复制的仅仅是以网页快照形式的复制行为,根据所抓取的信息内容不同,又可以细分为两类: 第一类,一般信息。是指不具有法律上的特殊性,但被爬取方明确禁止爬取的信息,若爬取方爬取了这一信息将对被爬取方的利益造成明显的影响,例如百度地图抓取大众点评数据信息不正当纠纷案(〔2016〕沪73民终242号)。在该案中,百度公司抓取了大众点评中用户的点评信息,在未对大众点评网中的点评信息做出贡献的情况下,将大量点评信息用于百度地图和百度知道,评论信息显然不具备著作权法上作品的构成要件,且因为其是公开的,通过其网站、APP 是可以查看的信息,因此其显然也不是商业秘密,但爬取该评论信息,又切实违反了被爬取方的意志,具有明显的“搭便车”和“不劳而获”的特点,违反公认的商业道德和诚实信用原则,构成不正当竞争。故而只能作为一般信息予以保护。
第二类,爬取方无视被爬取方意志所复制的信息构成著作权领域的作品。如爬取方爬取复制了小说、视频等作品,放置于自己的网站,这就很有可能侵犯他人的著作权。该类行为的最大特点就在于其所爬取的信息具有特殊性,在法律上所受到的保护力度远大于一般性信息,复制该信息可能同时触犯多个法律,形成法律责任的竞合。 二、不当爬虫行为的违法性分析 1.行为主体:具有竞争关系,滥用了网络技术
不正当竞争行为的实施主体十分广泛,不仅包括搜索引擎运营商,还包括第三方聚合类互联网经营者、新兴的开发应用软件等。基本上,只要互联网市场中的经营者带着不劳而获的目的,滥用中立性质的网络技术,抓取对手竞争者的数据资源,对其进行重新整合使用,在后期提供同质化产品或服务,非法取代数据被抓取方的竞争优势,那么就属于不正当爬虫行为的主体。 2.行为客体:具有一定商业价值的数据资源及信息
爬取的信息如上文讲述,一般包括对于一般信息和具备著作权性质的信息,这两类信息都需要具备一定的商业价值。对于一般信息,遵守合理的爬虫协议是《反不正当竞争法》所说的商业道德,因此如果违反爬虫协议则会构成对于商业道德的违反,而根据《反不正当竞争法》第二条的规定,经营者在经营活动中应当遵守商业道德,因此可以认定该行为属于不正当竞争行为,如果再能证明造成了损害后果等也可以追究其不正当竞争的责任。爬取方如果爬取复制的信息构成侵权法领域的作品的构成要件的话,那么无疑爬取方的行为除了可能构成违约之外,还有可能构成侵权。 3.行为特点:行为本身具有不正当性
爬虫行为不但违反了相关网络协议约定,还违反了法律规定的诚实信用原则或公认的商业道德。爬虫行为不仅包括抓取行为本身,还包括抓取之后的使用行为。抓取本身和抓取之后的使用都具备不正当性。使用上的不正当性表现在抓取方将数据用于商业竞争,而且可能涉及侵犯用户的数据安全。使用方式的不正当性表现在利用抓取的数据资源为自身谋取竞争优势,并损害对方竞争者的合法权益。 4.行为结果:给被抓取方造成相应的危害结果
根据互联网经济和数据市场的特点,爬虫行为对被抓取方所造成的直接危害后果就是用户黏性降低,用户的使用量、浏览量减少,将间接导致广告植入收益的损失或交易机会的减少。危害结果的表现形式有可能是有形的经济损失,也可能是无形的权益损害。爬虫行为可能侵犯:互联网经营者对用户数据拥有的合法权益;用户对数据本身享有的合法权益;公共权益即正常的市场竞争秩序等权益。 三、法律及行业规定 1.《反不正当竞争法》
第二条 经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。 本法所称的不正当竞争行为,是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。 本法所称的经营者,是指从事商品生产、经营或者提供服务(以下所称商品包括服务)的自然人、法人和非法人组织。 2.《最高人民法院关于适用<中华人民共和国反不正当竞争法>若干问题的解释》
第三条 特定商业领域普遍遵循和认可的行为规范,人民法院可以认定为反不正当竞争法第二条规定的“商业道德”。 人民法院应当结合案件具体情况,综合考虑行业规则或者商业惯例、经营者的主观状态、交易相对人的选择意愿、对消费者权益、市场竞争秩序、社会公共利益的影响等因素,依法判断经营者是否违反商业道德。 人民法院认定经营者是否违反商业道德时,可以参考行业主管部门、行业协会或者自律组织制定的从业规范、技术规范、自律公约等。 3.中国互联网协会《互联网搜索引擎服务自律公约》
第七条 遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。 机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。 网络机器人(Web robots也叫网络游客、爬虫程序、蜘蛛程序),是自动爬行网络的程序。搜索引擎利用这些程序索引网站内容,垃圾邮件发送者使用网络机器人扫描获取电子邮件地址,网络机器人还有很多其他用途。 第八条 互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。 四、小 结 爬虫技术作为一种互联网技术,本身并不具有合法性或违法性,只是作为市场经营者实施不正当竞争行为时的一种手段出现,在这种情况下,我们探讨如何正当合法地设置爬虫协议,更多是为强调当前的互联网市场行业快速裂变发展,行业惯例作用的发挥应有其恰当的评价领域,特别是在司法评价领域,更应该对互联网技术保持谦抑性。但这并不意味着互联网企业可以不加限制的使用爬虫技术,在经营活动中,不能侵害其他经营者的利益和市场环境。只有对技术进行合理使用才能提高技术水平,保持良好可持续发展。