工程师和OpenAI为网络安全应用程序推荐了评估大型语言模型的方法

放大字体  缩小字体 2024-04-03 17:26  浏览次数:

computer code

卡内基梅隆大学软件工程研究所(SEI)和OpenAI发布了一份白皮书,发现大型语言模型(llm)可能是网络安全专业人员的一项资产,但应该使用真实和复杂的场景进行评估,以更好地了解该技术的能力和风险。法学硕士是当今生成式人工智能(AI)平台的基础,例如谷歌的双子座(Gemini)、微软的必应(Bing) AI和OpenAI于2022年11月发布的ChatGPT。

这些平台从人类用户那里获取提示,在大型数据集上使用深度学习,并生成可信的文本、图像或代码。过去一年,在创意艺术、医学、法律、软件工程和收购等行业,法学硕士的申请呈爆炸式增长。

虽然在早期阶段,使用llm进行网络安全的前景越来越诱人。对于数据量大、技术含量高且往往费力的网络安全领域来说,这项新兴技术似乎是一个合适的力量倍增器。再加上要赶在拥有法学硕士学位(llm)的网络攻击者(包括与政府有关联的行为者)前面的压力,这种诱惑变得更加明显。

然而,很难知道法学硕士在网络作战中的能力如何,或者如果被防御者使用,风险有多大。关于评估法学硕士在任何专业领域的能力的讨论似乎都集中在他们的理论知识上,比如对标准考试问题的回答。一项初步研究发现,GPT-3.5 Turbo通过了一项普通的渗透测试。

法学硕士可能在事实回忆方面表现出色,但根据SEI和OpenAI的论文“评估网络安全任务的大型语言模型的考虑因素”,这还不够。

“法学硕士可能知道很多东西,”SEI CERT部门的高级网络安全分析师、该论文的合著者萨姆·珀尔(Sam Perl)说,“但它知道如何以正确的顺序正确部署信息,以及如何做出权衡吗?”

专注于理论知识忽略了现实世界网络安全任务的复杂性和细微差别。因此,网络安全专业人员不知道如何或何时将法学硕士纳入其运营。

根据该论文,解决方案是评估法学硕士在与人类网络安全操作员测试相同的知识分支上的知识:理论知识或基础教科书信息;实用知识,如解决独立的网络安全问题;应用知识,或者在开放式情境中实现更高层次的目标。

用这种方法测试人类已经够难的了。测试人工神经网络有一系列独特的障碍。在网络安全这样一个多样化的领域,甚至连定义任务都很困难。“攻击某物与取证或评估日志文件有很大不同,”SEI CERT部门的团队领导和高级工程师、论文的合著者Jeff Gennari说。“每项任务都必须仔细考虑,并设计适当的评估。”

一旦定义了任务,评估必须提出数千甚至数百万个问题。法学硕士需要这么多来模仿人类大脑在语义准确性方面的天赋。将需要自动化来生成所需数量的问题。这对于理论知识来说已经是可行的。

但是,生成足够的实际或应用场景——以及让LLM与可执行系统交互——所需的工具并不存在。最后,计算所有这些对实际和应用测试的响应的度量将采用新的正确性标准。

随着技术的发展,白皮书提供了一个框架,为法学硕士设计现实的网络安全评估,并提出了四个总体建议:

  • 为e定义实际任务要捕捉的估值。
  • 恰当地表示任务。
  • 做e估值健壮。
  • f适当地命名结果。

SEI CERT部门的高级人工智能安全研究员、该论文的合著者之一Shing-hon Lau指出,这一指导方针鼓励人们不再只关注法学硕士,而是关注网络安全或任何领域。“我们需要停止考虑评估模型本身,而转向评估包含模型的更大系统,或者如何使用模型提高人类的能力。”

SEI的作者认为,法学硕士最终将增强人类网络安全运营商的辅助作用,而不是自主工作。Gennari表示,即便如此,法学硕士课程仍需要评估。“网络专业人士需要弄清楚如何最好地利用法学硕士来支持一项任务,然后评估这种使用的风险。如果你的证据是法学硕士回答基于事实的问题的能力,那么现在很难回答这两个问题。”

SEI长期以来一直将工程严谨应用于网络安全和人工智能。在法学硕士评估研究中结合这两个学科是SEI领导人工智能网络安全研究的一种方式。去年,SEI还启动了人工智能安全事件响应小组(AISIRT),为美国提供应对人工智能快速增长和广泛使用带来的风险的能力。

去年,OpenAI就法学硕士网络安全评估与SEI进行了接触,希望更好地了解其生成式人工智能平台基础模型的安全性。OpenAI论文的合著者Joel Parish和Girish Sastry提供了法学硕士网络安全和相关政策的第一手知识。最终,所有的作者都希望这篇论文能够开启一场实践运动,为那些决定何时将法学硕士纳入网络运营的人提供信息。

“政策制定者需要了解如何在执行任务时最好地利用这项技术,”Gennari说。“如果他们对能力和风险有准确的评估,那么他们就能更好地实际有效地使用它们。”

更多信息:评估网络安全任务的大型语言模型的注意事项。来源:工程师和OpenAI推荐评估网络安全应用大型语言模型的方法(2024,4月2日)检索自2024年4月2日https://techxplore.com/news/2024-04-openai-ways-large-language-cybersecurity.html本文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心