2025-01-09
近年来,人工智能(AI)领域取得了惊人的进展,但随着模型规模的不断扩大,其训练所依赖的数据也成为了关键瓶颈。虽然合成数据可以为模型提供大量的训练素材,但其缺乏真实世界的复杂性和多样性,导致模型在处理实际场景时表现欠佳。
这篇文章指出,合成数据的局限性引发了对真实数据的重新重视。许多研究机构和公司都在积极探索如何利用真实数据来提升AI模型的性能。例如,苹果斥巨资收购 Shutterstock 的图片库,旨在为其训练模型提供更丰富的真实图像数据。
此外,一些公司专注于开发技术,使真实数据更容易被 AI 模型理解和使用。例如,Codium 推出 Codiumate,一个能够理解企业软件代码的 AI 代理,而 Snorkel Flow 则致力于简化企业数据与 Llama 和 Gemini 等模型之间的交互。
尽管合成数据在某些方面依然具有优势,但随着人们对 AI 应用场景不断拓展,真实数据的价值将日益凸显。未来,AI 的发展很可能更加依赖于人类经验和真实世界的观察,实现更加精准、可靠的应用。