邮件地址卖到暗网！坏人学到了AI怎么办？

最近半年，博主经常受到信用监控的警告。刚看到警告比较紧张，还以为信用卡信息被盗。仔细一看，说是电子邮件地址被放到了暗网上售卖。暗网是什么，听名字就不舒服：存在于黑暗网络、覆盖网络上的万维网内容，只能用特殊软件、特殊授权、或对电脑做特殊设置才能访问。简而言之，上面的东西一定是见不得阳光的地方。

有人会说，不过只是一个电子邮件地址，本来就是公开的，实在是不知道危害多大。直到我最近经常收到这样的邮件骗局，才终于想通了坏人用电子邮件地址的干什么。主要用来“钓鱼”。

我收的骗子电子邮件是一个要求我付款的paypal收款请求。不仔细一看，还以为是谁给我付钱的链接。要是再不小心点几下，估计就把钱送给别人了。

利用邮件地址来骗钱的招数，其实屡见不鲜。最著名的就是尼日利亚王子邮件骗局。邮件有可能这样的内容：

声称某人（或你的某个远方亲戚）逝世，而对方需要你提供你的个人资料及银行户口号码，以便把死者的遗产存入你的户口里。有时，他们甚至会声称要借用你的户口来作资产转移，并承诺会以所转移的资产的某个比例作为报酬。

虽然上面的内容漏洞百出，但是就在美国，去年这个类型的骗局仍然骗取了接近100万美元收入。

骗子的把戏虽然简单，但是确实是大数据的精彩应用。首先用比较低廉的价格收集各种电子邮件地址，数量可能巨大。然后再花点钱买个邮件群发软件。编辑好内容，点击群发。最后坐等收入到账。这个中招的比例可能非常非常低，但是架不住邮件数量巨大，总会有几个上当受骗的人。最终收入只要比花的钱多，这个收入就是可持续的！

怎么样，这个是不是和现在的搜索引擎，各大流量网站的广告技术差不多？唯一不同的是，大网站会用到各种统计，人工智能技术不断学习，不断优化，尽可能的让每一个广告页面被更多的人点击。而，坏人，希望，他们还没有学会这一套，或者没有足够的数据来进行这样的和优化。如果那样的话，损失财产的人会更多。

就怕流氓有文化！

来，咱们看看专业人士是怎么操作的。（坏人我都不告诉他）。

一个重要的优化指标叫做 CTR (click-through rate，点击率)，这个是百度，头条，微软，谷歌等各大公司挖空心思都要提高的指标。就是一个广告页面摆在一堆人面前，到底多少人会去点击。点击才算钱，点击就是真金白银。

从人工智能和机器学习的角度看，哪些是用来预测的重要特征呢? 举例如下：

1.• 日期: 20160320

2.• 小时: 14

3.• 周天: 7

4.• IP地址: 119.163.222.*

5.• 地区: 英国

6.• 城市: 伦敦

7.• 国家: 英国

8.• 广告平台: Google

9.• 域名: yahoo.co.uk

10.• 网址: http://www.yahoo.co.uk/abc/xyz.html

11.• 操作系统: Windows

12.• 浏览器: Chrome

13.• 广告图片大小: 300*250

14.• 广告 ID: a1890

15.• 用户标签: 运动, 电子

上面就是广告点击预测的常见特征，其中最后一项关于用户本身的特点肯定是更有价值的。对一个用户越了解，广告投放就越精准有效。所以各大网站和app为了留住用户，了解用户，肯定是做了不少的努力。你的每一次网络行为都一定被留存起来，非常有用。这也是用户和网站app的博弈，是隐私分界线最为麻烦的地方。可以想象，要是这些信息被坏人利用，造成的财产损失会有多大。

回到技术本身，传统的处理这些特征的方法，是用One-Hot Binary的编码方式去处理这类数据，例如现在有三个域的数据X=[Weekday=Wednesday, Gender=Male, City=Shanghai],其中 Weekday有7个取值，我们就把它编译为7维的二进制向量，其中只有Wednesday是1，其他都是0，因为它只有一个特征值；Gender性别有两维，其中一维是1；如果有一万个城市的话，那City就有一万维，比如上海这个取值是1，其他是0。

因此这种处理方法造成的模型困难是巨大，因为编码维度太大，没有足够多的数据根本没有办法有效预测。

因此对特征进行embedding(嵌入)是行之有效的办法。就是我们需要将非常大的特征向量嵌入到低维向量空间中来减小模型复杂度，而FM（Factorisation machine）无疑是被业内公认为最有效的embedding model ，如下所示：

上式中，第一部分是逻辑回归logistic regression，第二部分是通过两两向量之间的点积来判断特征向量之间和目标变量之间的关系。比如一个游乐园的广告，职业=学生和城市=上海这两个向量之间的角度应该小于90，所以他们之间的点积应该大于0，说这两项因此和该游乐园广告的点击率是正相关的。这种算法在推荐系统领域应用比较广泛。而上面式子表达的关系其实就是深度学习神经网络能够比较简单捕捉的关系。因此深度学习算法在广告推荐算法中运用非常广泛。

今天咱们谈广告推荐的技术就简单聊到这里，真心希望，坏人不要学会这一套，大家平时也要注意自己的隐私数据安全。

往期好评文章推荐：

机器学习系列篇1：金融风控中的机器学习

特朗普作息时间解密！内含数据可视化代码

10年如一日，川普这样说中国

各国和地区疫情动态增长图，附python实例代码

集成算法，随机森林和梯度增强机

罗志祥微博分析，特朗普同款操作！

现有确诊疫情全球动态变化，视屏制作超简单!

敬请关注，未来更精彩！

继续阅读

阅读原文

关键词

就是

数据

特征向量

技术

深度学习