(资料图)
一组研究人员通过开发一种算法在安全通信方面取得了突破,该算法能够有效地隐藏敏感信息,以至于不易发现任何东西被隐藏。由牛津大学领导的团队与卡内基梅隆大学密切合作,设想这种方法可能很快被广泛用于人类数字通信,包括社交媒体和私人信息。
该算法适用于一种称为隐写术的环境:将敏感信息隐藏在常规内容中的做法。隐写术与密码学不同,因为敏感信息是以这样一种方式隐藏起来的,这掩盖了一些被隐藏的事实。一个例子是在人工智能生成的猫的图像中隐藏一首莎士比亚的诗。
尽管已经研究了超过25年,但现有的隐写术方法通常安全性不完善的地方,这意味着使用这些方法的人有可能被发现。这是因为以前的隐写术算法会巧妙地改变无害内容的分布。
为了克服这个问题,研究小组使用了信息理论的最新突破,特别是最小熵耦合,它允许人们将两个数据分布连接在一起,使它们的相互信息最大化,但各自的分布被保留下来。因此,在新的算法中,无害内容的分布和编码敏感信息的内容分布之间没有统计上的差异。
该算法使用几种产生自动生成内容的模型进行了测试,如GPT-2,一个开源的语言模型,以及WAVERNN,一个文本到语音转换器。除了完全安全之外,新算法在各种应用中显示出比以前的隐写术方法高40%的编码效率,使更多的信息能够被隐藏在一定数量的数据中。这可能使隐写术成为一种有吸引力的方法,即使不需要完美的安全,因为它对数据压缩和存储有好处。
研究小组已经为该算法申请了专利,但打算以免费许可的方式将其发放给第三方用于非商业的负责任的使用。这包括学术和可信的第三方安全审计。研究人员已经在arXiv上发表了这项工作的预印本论文,并在Github上开放了他们方法的低效实现。他们还将在5月举行的首要人工智能会议——2023年国际学习表征会议上展示新算法。
在ChatGPT、Snapchat人工智能和TikTok等产品的推动下,人工智能生成的内容越来越多地被用于普通的人类交流。因此,隐写术可能会变得更加普遍,因为仅仅是人工智能生成的内容的存在将不再引起怀疑。
共同第一作者Christian Schroeder de Witt博士(牛津大学工程科学系)说:“我们的方法可以应用于任何自动生成内容的软件,例如概率视频过滤器,或备忘录生成器。这可能是非常有价值的。然而,用户仍然需要采取预防措施,因为任何加密技术都可能会受到侧面渠道的攻击,如检测到用户手机上的隐写应用。”
共同第一作者Samuel Sokota(卡耐基梅隆大学机器学习系)说:“这项工作的主要贡献是展示了一个叫作最小熵耦合的问题和完全安全的隐写术之间的深刻联系。通过利用这种联系,我们引入了一个新的隐写算法系列,它具有完美的安全保证。”
特约作者Jakob Foerster教授(牛津大学工程科学系)说:“这篇论文是研究机器学习基础的一个很好的例子,它为关键应用领域带来了突破性的发现。”