能给你带来价值和财富的爬虫,也能给你带来牢狱之灾

这几天忙着搬家,消息着实有点out,本想继续排序算法话题,但朋友圈被《只因写了一个爬虫,公司200多人被抓!》这一文刷爆,其实我也是一名爬虫er,看完此文隐隐觉得阴风阵阵。

2017年下半年起,互联网不再是红利风口。资金断裂,大规模裁员已经是互联网公司的常态,python的火爆,却带动了大数据、深度学习的发展,原以为此次火爆的红利方向能带来互联网新的崛起,却不曾想到到今年开始,多家数据公司深为爬虫惹了一堆官司。

大多数互联网人对爬虫并不陌生,只说说因反爬虫而引起的是非,文中所提到了是一家叫“巧达数据”的公司,其实很早之前,互联网也有相关故事上演,只是没有上升到法律层面,2008年9月8日,淘宝网宣布封杀百度(103.740,-3.63%)爬虫,百度只能忍痛遵守爬虫协议。因为一旦破坏协议,用户的隐私和利益就无法得到保障,搜索网站就谈不到人性关怀。所以你在百度上搜不到任何直链淘宝商品的内容。2011年10月25日,京东商城正式将一淘网的搜索爬虫屏蔽,以防止一淘网对其的内容抓取。

2012年8月29日,上线不到十日即轻松登上国内第二大搜索引擎宝座的奇虎360搜索未经授权大量抓取百度、google内容,还记录国内知名网游的后台订单、优惠码等,甚至一些用户的电子邮箱、帐号、密码也被360通过浏览器悄然记录在案,引发激烈的讨论。

爬虫违法吗

爬虫本身就是打法律的擦边球,非法获取服务商数据并产生商业价值必须违法。

举几个反面例子:

•爬了视频、音乐网站后把视频、音乐直接搬到自己网站上,为用户提供播放服务的。

•爬了小说网站后把小说文本直接搬到自己网站上,为用户提供盗版阅读服务的。

•爬了论坛网站后把所有贴子直接搬到自己网站上,改个名字假装自己是另一个论坛的。

以上行为都违法,只是一般在站点没有做大的时候,不会有人来查你水表。

如果以上内容都不能做,那爬虫还能做什么?

搜索工具,搜索引掣!

在遵循robots协议的前提下,各大搜索公司都通过采集功能进行数据获取,像今日头条这样的公司创业之初也是通过数据采集来增加内容信息的。但是明确一点,数据并不落地到本地,也不会通过自己的服务器进行别人内容的呈现,所以在法律上就规避了这部分的风险。

其二、数据采集也需要在一个合适的频率之下。所有的互联网服务器的每一次被访问都会对服务器产生压力,数据源原有100个窗口,因为被爬,只留下了50个窗口,这种情况就会产生恶性效果,当连接达到100以上时,对方的服务就会因为你的爬虫而崩溃。

在数据量较大的情况下,如果对方的带宽很小,很有可能就会被你的高并发请求直接弄挂,这就相当于CC攻击了。

所以,千万注意控制自己的请求速度,控制在一个合理的范围内,如果你公司老板或产品经理给你提了一个像“一天采集一遍12306”这种需求,建议你直接怼回去,毕竟结果你也会一起吃牢饭。

其实爬虫更大的价值在与数据的收集,为大数据提供数据支撑,为深度学习提供数据素材。

比如说:

你为了调研天气信息,合理的频次下,你做出了数据爬虫,通过深度学习或建立了天气预测模型,这就是合理的数据应用。

不要影响别人的正常业务

这个应该很好理解吧?抢票、刷单、薅羊毛之类的其实都是属于这一类的,只要你的操作量大了,就会影响到别人的正常业务,而且还很有可能会涉及到其他的利益关系,你说这情况不抓你抓谁?

非公开数据不要乱搞

这个也很简单,别人用来商业化的数据(如天眼查等工商信息查询网站等),你通过公开手段爬了之后拿去用,人家当然要告你。

并非单这家,更简单来说,我们能合理使用的只有开放性,非商业化的数据。

总结

好了,差不多应该就是这些,这篇文章是想到啥就说啥了,对于一些细节方面的问题建议自行判断,判断不了的建议联系律师帮你分析,不要不知道什么情况还往里冲,这样子进监狱是迟早的事情。

有个很简单的方法能判断出一件事情是否有违法风险,如果你不知道做某件事情会不会违法,但你觉得做这件事情似乎不太好,那么这件事情做完以后多半会出事!

最后说一下,技术无罪,合理的利用自己的技术,不要被眼前小小的利益所蒙蔽

本文由 8源码吧 作者:liaolong 发表,其版权均为 8源码吧 所有,文章内容系作者个人观点,不代表 8源码吧 对观点赞同或支持。如需转载,请注明文章来源。

发表评论