机器学习模型的解释方法效果如何?_AI与机器人_电子与半导体

machine learning

想象一下，一组医生使用神经网络在乳房x光照片中检测癌症。即使这个机器学习模型看起来运行良好，它也可能专注于与肿瘤偶然相关的图像特征，比如水印或时间戳，而不是肿瘤的实际迹象。

为了测试这些模型，研究人员使用了“特征归因方法”，这种技术可以告诉他们图像的哪一部分对神经网络的预测是最重要的。但是，如果归因方法忽略了对模型很重要的特征呢?因为研究人员一开始就不知道哪些特征是重要的，所以他们无从知道他们的评估方法是无效的。

为了帮助解决这个问题，麻省理工学院的研究人员设计了一个过程来修改原始数据，这样他们就可以确定哪些特征对模型实际上是重要的。然后他们使用这个修改后的数据集来评估特征归因方法是否能够正确地识别那些重要的特征。

他们发现，即使是最流行的方法也常常会忽略图像中的重要特征，而且一些方法几乎不能像随机基线那样发挥作用。这可能会产生重大影响，特别是如果神经网络应用于高风险的情况，如医疗诊断。如果网络不能正常工作,并试图抓住这样的异常不正常工作,人类专家可能不知道他们误导了错误的模型,解释了作者Yilun周,电子工程和计算机科学计算机科学与人工智能实验室的研究生(权力)。

“所有这些方法都被广泛使用，特别是在一些非常重要的情况下，比如通过x光或CT扫描检测癌症。但这些特征归因方法一开始就可能是错误的。他们可能会强调一些与模型用来做预测的真实特征不相符的东西，我们发现这经常是这样的。如果你想使用这些特征归因方法来证明一个模型是正确的，你最好首先确保特征归因方法本身是正确的。”他说。

这篇论文的作者包括同为欧洲经济学院研究生的Serena Booth、微软研究院研究员Marco Tulio Ribeiro以及资深作者Julie Shah。Julie Shah是麻省理工学院航空航天系教授，也是CSAIL互动机器人小组的主任。

聚焦特性

在图像分类中，图像中的每个像素都是神经网络可以用来进行预测的一个特征，所以实际上有数百万个可能的特征可以被神经网络关注。例如，如果研究人员想设计一种算法来帮助有抱负的摄影师改进，他们可以训练一个模型来区分专业摄影师拍摄的照片和普通游客拍摄的照片。这个模型可以用来评估业余照片与专业照片的相似程度，甚至提供具体的改进反馈。研究人员希望该模型能够在培训期间专注于识别专业照片中的艺术元素，如色彩空间、构图和后期处理。但碰巧的是，专业拍摄的照片很可能包含摄影师姓名的水印，而很少有游客照片有水印，所以模型可以直接找到水印。

“显然，我们不想告诉有抱负的摄影师，水印是你成功的职业生涯所需要的一切，所以我们想确保我们的模型专注于艺术特征，而不是水印的存在。使用特征属性方法来分析我们的模型是很诱人的，但是在一天结束的时候，并不能保证它们正确工作，因为模型可以使用艺术特征、水印或任何其他特征，”Zhou说。

“我们不知道数据集中那些虚假的相关性是什么。可能有很多不同的东西是一个人完全无法察觉的，比如图像的分辨率，”布斯补充道。“即使我们无法察觉，神经网络也有可能提取出这些特征，并利用它们进行分类。这就是根本问题。我们不太了解我们的数据集，但也不可能那么了解我们的数据集。”

研究人员修改了数据集，削弱了原始图像和数据标签之间的所有相关性，这保证了原始特征不再重要。

然后，他们在图像上添加一个新特征，这个特征非常明显，神经网络必须关注它才能做出预测，比如不同图像类别的不同颜色的亮矩形。

“我们可以自信地断言，任何达到很高可信度的模型都必须关注我们输入的那个彩色矩形。然后，我们可以看到是否所有这些特征归属方法都急于突出该位置，而不是其他一切，”周说。

“尤其令人担忧”的结果

他们将这项技术应用于许多不同的特征归因方法。对于图像分类，这些方法产生了所谓的显著性图，它显示了分布在整个图像上的重要特征的集中度。例如，如果神经网络对鸟类的图像进行分类，显著性图可能会显示80%的重要特征集中在鸟的喙周围。

在去除图像数据中的所有相关性后，他们通过多种方式对照片进行了操作，比如模糊部分图像、调整亮度或添加水印。如果特征归因方法是正确的，那么几乎100%的重要特征应该位于研究人员操作的区域附近。

结果并不令人鼓舞。没有一种特征归因方法接近100%的目标，大多数几乎没有达到50%的随机基线水平，有些甚至在某些情况下比基线表现更差。因此，即使新特征是模型可以用来进行预测的唯一特征，特征归因方法有时也不能识别出来。

“在所有不同类型的虚假相关性中，这些方法似乎都不是很可靠。这尤其令人担忧，因为在自然数据集中，我们不知道哪些虚假的相关性可能适用，”周说。“这可能是各种各样的因素。我们认为我们可以相信这些方法来告诉我们，但在我们的实验中，似乎真的很难相信它们。”

他们研究的所有特征归因方法都能更好地检测异常，而不是没有异常。换句话说，与识别不包含水印的图像相比，这些方法更容易找到水印。因此，在这种情况下，人类将更难相信一个给出负面预测的模型。

该团队的工作表明，在将特征归因方法应用到真实世界的模型之前，测试它们是至关重要的，特别是在高风险的情况下。

“研究者和实践者可能会使用像特征归因方法这样的解释技术来产生一个人对模型的信任，但是这种信任只有在解释技术被严格评估后才会建立起来，”Shah说。“一种解释技巧可能被用来校准一个人对模型的信任程度，但校准一个人对模型解释的信任程度也同样重要。”

接下来，研究人员希望利用他们的评估程序来研究更微妙或更真实的特征，这些特征可能导致虚假的相关性。他们想要探索的另一个领域是帮助人类理解显著性图，这样他们就可以根据神经网络的预测做出更好的决定。