致同行:不必再爬我们数据了
致某一家或几家同行公司:
不必再爬 就诊问问 这款产品的数据了。如果想用什么数据,来找我们打个招呼,合作一下就行了。
最近几天,我看同事在处理反爬虫策略,因为有人在反复用爬虫抓取就诊问问网页端(见页面底部的「阅读原文」)的数据。其实说来无奈,我们不做反爬虫策略任由别人爬的话还真不行,爬虫访问频率太高,还吃掉我们不小带宽。
互联网上很多数据之所以爬来爬去的,一个原因就是重复建设太多,到处爬别人的,自己爬回来质量奇差的数据之后又不做持续的迭代改进,最后留下一大堆烂尾工程。我们在处理医疗和健康相关信息的时候,如果已经有符合预期质量的数据,绝对不想再做重复工作。比如,就诊问问疾病相关的医生信息,整个中国互联网也没有这个东西。这个就没办法,只能自己做。但做完了,如果你觉得这个对贵公司有用,合作一下就行了,你还可以得到后续持续的更新。
我之前调侃过,中国互联网行业通行的 API 其实是爬虫。但无码科技既然已经做了不少工作,趟过了一些坑,深知做这些事情不那么容易,还不如给同行提供一下数据接口服务,降低彼此的成本。
不要一听到「合作」就觉得必须花钱,即使是需要一点费用也不过是象征性的而已。诸位同行,可以自己算一下,你用工程师(可能还是个团队)折腾那么长时间,数据弄回来还要清洗整理,不需要成本么?这个成本算下来真的更贵。
我们最近几年已经对不少合作伙伴提供了相关服务。欢迎合作。
医疗行业本来就赚不到什么钱,互相之间还折腾什么呢,是不是。
节省下来的成本,干点啥不好?
阅读原文 关键词
爬虫
最新评论
推荐文章
作者最新文章
你可能感兴趣的文章
Copyright Disclaimer: The copyright of contents (including texts, images, videos and audios) posted above belong to the User who shared or the third-party website which the User shared from. If you found your copyright have been infringed, please send a DMCA takedown notice to [email protected]. For more detail of the source, please click on the button "Read Original Post" below. For other communications, please send to [email protected].
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。
版权声明:以上内容为用户推荐收藏至CareerEngine平台,其内容(含文字、图片、视频、音频等)及知识版权均属用户或用户转发自的第三方网站,如涉嫌侵权,请通知[email protected]进行信息删除。如需查看信息来源,请点击“查看原文”。如需洽谈其它事宜,请联系[email protected]。