网络爬虫,又称“网页蜘蛛”“网络机器人”,是互联网时代被普遍运用的一项网络信息搜集技术。爬虫们在特定程序的驱动下,沿着网址这根“蛛丝”,在互联网这张大网上爬来爬去,模拟人工操作,从网站、手机应用程序、小程序或搜索引擎中检索、提取、存储数据。不同于计算机病毒的负面性和破坏性,爬虫技术是中立的,我们熟知的百度、搜狗等搜索引擎,其支撑性技术之一就是网络爬虫——通过爬取网页,实时存储并更新索引内容,为用户提供检索服务。此外还包括新闻平台的内容汇聚与生成、电子商务平台的价格对比等,出色的网络爬虫能够处理大量数据,极大地节省了人力成本。但技术的应用却不尽然是向善的。无论个人数据还是企业数据,公开信息还是商业机密,网络爬虫都可以实现数据爬取。如果在获取数据的过程中,对哪些数据可以爬取,哪些数据禁止爬取不加以区分,甚至为爬取数据而破解被爬服务器的防护措施,或者破坏被爬服务器的信息系统,网络爬虫就会变成网络害虫。
最高人民法院下属的中国裁判文书网,之前就因网络爬虫试图非法获取裁判文书数据,向网站发起无限制访问,造成其负荷过大,不得不通过限制列表翻页数量来应对网络爬虫,但这也对正常的浏览用户造成了很大困扰。
此外,还有一些大数据风控公司用爬虫程序抓取未公开、未授权的个人敏感信息,甚至违规留存、使用、买卖这些隐私数据。曾有知名互联网金融平台报案称,其9万余条客户信息被非法爬取,并在“暗网”上出售。
应对策略
非法的爬虫行为或涉嫌 3 宗罪:非法获取计算机信息系统数据罪、破坏计算机信息系统罪、侵犯公民个人信息罪。
对于各类网站运营主体而言,除采用防火墙、验证机制等多种手段做好数据防护外,还应在发生网络攻击、数据窃取等案件时,第一时间做好证据固定,及时向公安机关等有关部门报案,避免损失进一步扩大。