一种设计最适合于特定任务的神经网络的方法_电子与半导体

neural networks

神经网络是一种机器学习模型，它被用来帮助人类完成各种各样的任务，从预测某人的信用评分是否高到有资格获得贷款，到诊断病人是否患有某种疾病。但研究人员对这些模型的工作原理仍然知之甚少。一个给定的模型对于某个任务是否最优仍然是一个悬而未决的问题。

麻省理工学院的研究人员已经找到了一些答案。他们对神经网络进行了分析，并证明它们可以被设计成“最优”的，这意味着当网络被给予大量标记训练数据时，它们可以最大限度地减少将借贷者或患者错误分类为错误类别的概率。为了实现优化，这些网络必须使用特定的体系结构来构建。

研究人员发现，在某些情况下，使神经网络最优的构建模块并不是开发人员在实践中使用的。研究人员说，通过新的分析得出的这些最佳构建模块是非常规的，以前没有考虑过。

在本周发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上的一篇论文中，他们描述了这些被称为激活函数的最佳构建模块，并展示了如何使用它们来设计在任何数据集上实现更好性能的神经网络。即使神经网络变得非常大，结果仍然成立。电子工程与计算机科学系(EECS)教授、资深作者Caroline Uhler解释说，这项工作可以帮助开发人员选择正确的激活函数，使他们能够构建神经网络，在广泛的应用领域更准确地分类数据。

“虽然这些是以前从未使用过的新的激活函数，但它们是一些简单的函数，有人可以针对特定的问题实际实现。这项工作确实表明了理论证明的重要性。如果你追求对这些模型的原则理解，实际上可以引导你找到新的激活函数，否则你永远不会想到，”Uhler说，他也是麻省理工学院和哈佛大学布罗德研究所埃里克和温迪·施密特中心的联合主任，也是麻省理工学院信息与决策系统实验室(LIDS)及其数据、系统和社会研究所(IDSS)的研究员。

与Uhler一起发表这篇论文的还有主要作者Adityanarayanan Radhakrishnan，他是EECS的研究生和Eric and Wendy Schmidt中心的研究员，以及加州大学圣地亚哥分校halicio土耳其卢数据科学研究所的教授Mikhail Belkin。

激活调查

神经网络是一种机器学习模型，它松散地基于人脑。许多层相互连接的节点(或神经元)处理数据。研究人员通过从数据集中展示数百万个示例来训练网络完成任务。

例如，一个训练有素的网络将图像分类，比如狗和猫，给它一张被编码为数字的图像。网络执行一系列复杂的乘法运算，一层一层，直到结果只有一个数字。如果这个数字是正的，网络将图像分类为狗，如果是负的，则将图像分类为猫。

激活函数帮助网络学习输入数据中的复杂模式。它们通过在数据发送到下一层之前对一层的输出应用转换来实现这一点。当研究人员建立一个神经网络时，他们会选择一个激活函数来使用。他们还选择了网络的宽度(每层有多少神经元)和深度(网络中有多少层)。

“事实证明，如果你采用人们在实践中使用的标准激活函数，并不断增加网络的深度，它会给你带来非常糟糕的性能。我们证明，如果你设计不同的激活函数，随着你获得更多的数据，你的网络会变得越来越好，”Radhakrishnan说。

他和他的合作者研究了一种情况，在这种情况下，神经网络是无限深入和广泛的——这意味着网络是通过不断地添加更多的层和更多的节点来构建的——并被训练来执行分类任务。在分类中，网络学会将数据输入放入单独的类别中。

“干净的画面”

在进行了详细的分析后，研究人员确定这种网络只有三种方法可以学习对输入进行分类。一种方法是根据训练数据中的大部分输入对输入进行分类;如果狗比猫多，它会判定每一个新的输入都是狗。另一种方法通过选择最类似于新输入的训练数据点的标签(狗或猫)进行分类。

第三种方法基于所有与之相似的训练数据点的加权平均对新输入进行分类。他们的分析表明，这是三种方法中唯一能获得最佳性能的方法。他们确定了一组总是使用这种最佳分类方法的激活函数。

“这是最令人惊讶的事情之一——无论你选择哪个激活函数，它都只是这三个分类器中的一个。我们有公式可以明确地告诉你这三个中的哪一个。这是一幅非常清晰的图景。”

他们在几个分类基准测试任务中测试了这一理论，发现在许多情况下，它导致了性能的提高。Radhakrishnan说，神经网络构建者可以使用他们的公式来选择一个能提高分类性能的激活函数。

在未来，研究人员希望利用他们所学到的知识来分析他们拥有有限数据的情况，以及那些不是无限宽或无限深的网络。他们还希望将这种分析应用于数据没有标签的情况。

“在深度学习中，我们希望建立基于理论的模型，这样我们就可以可靠地将它们部署在一些关键任务环境中。这是一种很有前途的方法，可以实现这样的目标——以理论为基础的方式构建架构，在实践中转化为更好的结果，”他说。

更多信息:Adityanarayanan Radhakrishnan等人，广泛和深度神经网络实现一致性分类，美国国家科学院院刊(2023)。DOI: 10.1073 / pnas.2208779120期刊信息:美国国家科学院院刊

本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载，这是一个流行的网站，涵盖了关于麻省理工学院研究、创新和教学的新闻。

引用:设计最适合某些任务的神经网络的方法(2023,3月30日)检索于2023年3月30日从https://techxplore.com/news/2023-03-method-neural-networks-optimally-tasks.html此文档作品受版权保护。除为私人学习或研究目的而进行的公平交易外，未经书面许可，不得转载任何部分。的有限公司 Ntent仅供参考之用。