通过网络广告打击人贩子_AI与机器人_电子与半导体

卡耐基梅隆大学(Carnegie Mellon University)和麦吉尔大学(McGill University)的研究人员对一种算法进行了调整，该算法最初是用来发现数据中的异常现象的，比如医院病人信息中的拼写错误或会计数据中的错误，以识别陪护广告中的相似之处。

CMU计算机科学学院人工智能弗雷德金教授Christos Faloutsos领导了这个研究小组，他说，该算法可以扫描和聚类文本中的相似性，可以帮助执法部门指导调查，更好地识别人口贩子和他们的受害者。

法鲁索斯说:“我们的算法可以把数以百万计的广告放在一起，突出显示共同的部分。”“如果他们有很多共同点，就不能保证，但很可能是可疑的东西。”

该团队将该算法称为InfoShield，并在今年的IEEE数据工程国际会议(ICDE)上发表了一篇论文。

根据国际劳工组织的数据，估计有2490万人被强迫劳动。其中55%是在色情行业被贩卖的妇女和女孩，而色情行业的大部分广告都发布在网上。同一个人可能为4到6个受害者写广告，导致类似的措辞和清单重复。

“人口贩卖是一个危险的社会问题，很难解决，”该研究的主要作者卡特琳娜·瓦贾克和孟洁·李写道。“通过寻找包含相似措辞的小广告簇，而不是分析单独的广告，我们发现最有可能是有组织的活动的广告组，这是(人口贩运)的一个强烈信号。”

为了测试InfoShield，该团队在一组专家已经识别出贩运广告的护航列表上运行了它。该团队发现InfoShield在识别贩运广告方面比其他算法表现得更好，标记它们的准确率达到85%。也许更重要的是，它并没有错误地将任何陪护名单标记为人口贩卖广告，而实际上它们并没有。Faloutsos说，误报会很快侵蚀算法的信任度。

要证明这一成功并不容易。测试数据集包含了人口贩子投放的真实广告。这些广告中的信息是敏感的，并且是保密的，以保护人口贩卖的受害者，所以团队不能公布识别出的相似点或数据集本身。这意味着其他研究人员无法验证他们的工作。

“我们基本上是在说，‘相信我们，我们的算法是可行的，’”瓦贾克说。

为了解决这个问题，研究小组寻找了可以用来测试InfoShield的公共数据集，该数据集模仿了算法在人口贩卖数据中寻找的内容:文本及其相似性。他们转向Twitter，在那里他们发现了由机器人创造的大量文本和相似之处。

机器人通常会以类似的方式发布相同的信息。就像贩卖人口的广告一样，机器人的推文的格式可能是相同的，但会有一些信息发生变化。Rabbany说，这两种情况——推特机器人和人口贩卖广告——的目标都是找到有组织的活动。

在推特中，InfoShield在检测机器人方面的表现优于其他最先进的算法。瓦贾克说，这一发现令人惊讶，因为其他算法会考虑twitter特定的指标，如粉丝数、转发数和点赞数，而InfoShield则没有。相反，该算法只依赖tweets的文本来确定是否为bot。

瓦贾克说:“这充分说明了文本在寻找这类组织方面的重要性。”