通过网络广告打击人贩子

放大字体  缩小字体 2021-04-25 16:50  浏览次数:
o<em></em>nline ads

卡耐基梅隆大学(Carnegie Mellon University)和麦吉尔大学(McGill University)的研究人员对一种算法进行了调整,该算法最初是用来发现数据中的异常现象的,比如医院病人信息中的拼写错误或会计数据中的错误,以识别陪护广告中的相似之处。

CMU计算机科学学院人工智能弗雷德金教授Christos Faloutsos领导了这个研究小组,他说,该算法可以扫描和聚类文本中的相似性,可以帮助执法部门指导调查,更好地识别人口贩子和他们的受害者。

法鲁索斯说:“我们的算法可以把数以百万计的广告放在一起,突出显示共同的部分。”“如果他们有很多共同点,就不能保证,但很可能是可疑的东西。”

该团队将该算法称为InfoShield,并在今年的IEEE数据工程国际会议(ICDE)上发表了一篇论文。

根据国际劳工组织的数据,估计有2490万人被强迫劳动。其中55%是在色情行业被贩卖的妇女和女孩,而色情行业的大部分广告都发布在网上。同一个人可能为4到6个受害者写广告,导致类似的措辞和清单重复。

“人口贩卖是一个危险的社会问题,很难解决,”该研究的主要作者卡特琳娜·瓦贾克和孟洁·李写道。“通过寻找包含相似措辞的小广告簇,而不是分析单独的广告,我们发现最有可能是有组织的活动的广告组,这是(人口贩运)的一个强烈信号。”

为了测试InfoShield,该团队在一组专家已经识别出贩运广告的护航列表上运行了它。该团队发现InfoShield在识别贩运广告方面比其他算法表现得更好,标记它们的准确率达到85%。也许更重要的是,它并没有错误地将任何陪护名单标记为人口贩卖广告,而实际上它们并没有。Faloutsos说,误报会很快侵蚀算法的信任度。

要证明这一成功并不容易。测试数据集包含了人口贩子投放的真实广告。这些广告中的信息是敏感的,并且是保密的,以保护人口贩卖的受害者,所以团队不能公布识别出的相似点或数据集本身。这意味着其他研究人员无法验证他们的工作。

“我们基本上是在说,‘相信我们,我们的算法是可行的,’”瓦贾克说。

为了解决这个问题,研究小组寻找了可以用来测试InfoShield的公共数据集,该数据集模仿了算法在人口贩卖数据中寻找的内容:文本及其相似性。他们转向Twitter,在那里他们发现了由机器人创造的大量文本和相似之处。

机器人通常会以类似的方式发布相同的信息。就像贩卖人口的广告一样,机器人的推文的格式可能是相同的,但会有一些信息发生变化。Rabbany说,这两种情况——推特机器人和人口贩卖广告——的目标都是找到有组织的活动。

在推特中,InfoShield在检测机器人方面的表现优于其他最先进的算法。瓦贾克说,这一发现令人惊讶,因为其他算法会考虑twitter特定的指标,如粉丝数、转发数和点赞数,而InfoShield则没有。相反,该算法只依赖tweets的文本来确定是否为bot。

瓦贾克说:“这充分说明了文本在寻找这类组织方面的重要性。”

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心