Php文档 Php问答行业资讯 Php论坛 Php手册 Php博客

游戏榜单

软件榜单

关闭导航

热搜榜

热门下载

热门标签

专访 | 大公司正用垃圾数据训练AI：直觉

关闭搜索

php爱好者> 软件资讯>专访 | 大公司正用垃圾数据训练AI：直觉

专访 | 大公司正用垃圾数据训练AI：直觉

时间：2025-10-31 来源：互联网标签：专访 | 大公司正用垃圾数据训练AI：直觉

直觉创始人比利·卢德克表示，AI模型越来越强大，但训练它们的数据却越来越差。

直觉创始人比利·卢德克指出，AI的质量完全取决于我们喂给它的数据
随着AI进入递归循环，我们正身处"垃圾进、垃圾出"的时代
去中心化模型在技术和用户体验上更具优势

随着AI系统日益普及，用户越来越频繁地遇到难以修复的局限性问题。虽然模型在不断改进，但训练这些模型的底层数据却一成不变。更糟的是，递归现象——即AI模型用其他AI生成的数据进行训练——可能使情况恶化。

为探讨AI的未来，crypto.news采访了去中心化协议Intuition的创始人比利·卢德克。该协议致力于为AI提供可验证的归属权、声誉和数据所有权。卢德克解释了当前AI数据集存在根本缺陷的原因及解决方案。

crypto.news：当前所有人都聚焦AI基础设施——GPU、能源、数据中心。人们是否低估了信任层在AI中的重要性？为什么它如此关键？

比利·卢德克：百分之百被低估了——其重要性体现在多个方面。

首先，我们正在进入我称之为"垃圾进、垃圾出"的时代。AI的质量完全取决于其消耗的数据质量。但这些数据——尤其是来自开放网络的——大多已被污染。它们既不纯净，也无法反映人类真实意图。大部分数据源自网络上的游戏化行为：点赞、评论、互动技巧——全都经过注意力优化算法的过滤。

当AI抓取网络数据时，它看到的并非人类本质的全貌，而是人们在平台上的表演行为。我在推特上的表现与现实生活中完全不同。所有人都如此。我们是在为算法优化，而非表达真实想法。

这还形成递归循环。平台训练我们，我们反馈更多扭曲行为。这种反馈循环会不断放大AI对人类认知的扭曲。我们不是在教它思考，而是在教它获取点赞。

普通用户不会谷歌搜索、对比信源或批判性思考。他们直接询问ChatGPT等模型，并全盘接受其回答。

这很危险。如果模型是个不透明的黑箱，而控制它的公司还掌控着你看到或看不到的信息，那就意味着完全的话语权垄断。这是中心化、不受约束且极度强大的控制。

想象询问Grok最佳播客时，答案只是给埃隆付款最多的人。这不是智能——只是变相广告。

CN：如何解决这个问题？如何建立重视真相而非参与度的系统？

卢德克：需要扭转激励机制。这些系统应该服务于人——而非机构、股东或广告商。这意味着要为互联网构建新层：身份与声誉原语。这正是我们在Intuition的工作。

我们需要可验证的归属权：谁在何时何种情境下说了什么。还需要可移植的去中心化声誉系统，以此评估数据源的可信度——不是凭感觉，而是基于实际情境记录。

Reddit就是典型案例。它是AI模型最大的训练数据源之一。但如果用户讽刺地说"去死吧"，这句话可能被爬取，并出现在给寻求医疗建议者的推荐中。

这很可怕——当模型缺乏情境、归属权和声誉权重时就会发生。我们需要知道：此人在医疗领域可信吗？在金融领域有声望吗？这是可靠信源还是随机评论？

CN：谈到归属权和声誉，这些数据需要存储。在基础设施方面如何考虑？尤其是版权和补偿问题？

卢德克：这正是Intuition要解决的。有了可验证的归属权原语，就能确认数据创作者。这使得知识能够通证化，进而实现补偿。

你的数据不再存储在谷歌服务器或OpenAI的API上，而是存在于去中心化的知识图谱中。每个人拥有自己贡献的内容。当你的数据被调用或用于AI输出时，你将获得其创造价值的分成。

这很重要，因为当前我们只是数字农奴。我们用最宝贵的资源——时间、注意力和创造力——生成被他人变现的数据。YouTube的价值不在视频托管，而在于人们的 curation行为。没有点赞、评论或订阅，YouTube将毫无价值。

我们想要的世界里，每个人都能从创造的价值中获益——即使你不是网红或外向者。比如，如果你总能早期发现新艺术家，你的品味就具有价值。你应该能据此建立声誉并变现。

CN：即使实现透明化，这些模型仍难以解释。OpenAI自己都无法完全说明其模型的决策逻辑。这该如何应对？

卢德克：问得好。我们无法完全解释模型行为——它们太复杂了。但我们可以控制训练数据，这是我们的杠杆。

举例说明：有篇研究论文提到，一个AI痴迷猫头鹰，另一个擅长数学。它们只在数学任务上共同训练。但最终，数学AI也开始喜欢猫头鹰——仅仅通过吸收另一个AI的模式。

这些模式的潜意识影响令人震惊。唯一的防御是保持意图明确。我们必须审慎选择训练数据。某种程度上，我们需要"自我疗愈"，在网络上更真实、建设性地呈现。因为AI终将反映创造者的价值观和扭曲。

CN：谈谈商业层面。OpenAI在烧钱，其基础设施极其昂贵。像Intuition这样的去中心化系统如何在财务和技术上竞争？

卢德克：我们有两个核心优势：可组合性与协调能力。

去中心化生态系统——尤其是加密领域的——极其擅长协调。我们有全球分布式团队共同解决同一问题的不同组件。不是一家公司耗费数十亿对抗世界，而是数百名协作者构建可互操作工具。

这就像马赛克拼图。一个团队负责智能体声誉，另一个做去中心化存储，还有一个开发身份原语——我们可以将它们组合起来。

这就是超能力所在。

第二个优势是用户体验。OpenAI受限于其护城河。他们不允许你将ChatGPT的上下文移植到Grok或Anthropic——这会削弱其防御性。但我们不在乎供应商锁定。

在我们的系统中，你可以拥有自己的上下文，随身携带，并插入任何智能体。这会带来更好的体验，人们自然会选择。

CN：基础设施成本呢？运行大模型极其昂贵。未来会出现本地运行的小模型吗？

卢德克：当然，这正是趋势所在——众多本地运行的小模型，像分布式集群中的神经元般连接。

取代巨型数据中心的是数十亿消费设备贡献的计算力。如果我们能协调它们——这正是加密技术的专长——这将形成更优越的架构。

因此我们也在构建智能体声誉层。请求可以被路由给专门处理此类任务的智能体。不需要一个全能的大模型，只需智能的任务路由系统——就像数百万智能体间的API层。

CN：确定性呢？大语言模型不擅长数学等需要精确答案的任务。能否将确定性代码与AI结合？

卢德克：这正是我想要的。我们需要让确定性重回循环。

我们从完全确定性的符号推理开始，然后剧烈转向非确定性的深度学习。这带来了当前的爆发。但未来属于神经符号系统——结合两者优势。

让AI处理模糊推理，但在需要精确性时触发确定性模块——脚本、函数、逻辑引擎。比如"我哪个朋友喜欢这家餐厅？"这应该是100%确定的。

CN：宏观来看，企业都在业务中整合AI，但效果参差不齐。你认为当前大语言模型真的提升了生产力吗？

卢德克：毫无疑问。奇点已经到来——只是分布不均。

如果你在工作流中不用AI——特别是编程或内容创作——你的效率将远低于他人。技术是真实的，效率提升是巨大的。颠覆已经发生，只是人们尚未完全意识到。

CN：最后，很多人认为这是泡沫。风投资金枯竭，OpenAI在烧钱，英伟达甚至要贷款给客户。这会如何收场？

卢德克：泡沫确实存在——但技术是真实的。所有泡沫都会破裂，留下的将是基础技术。AI将成为其中之一。那些没有真正创新的套壳应用将被淘汰，但深耕基础设施的团队将存活。

可能有两种结局：温和回调后继续发展；或者生产力提升如此巨大，AI成为经济通缩力量，GDP产出能力提升10倍甚至100倍。若是后者，所有投入都值得——我们将实现社会升级。

无论如何，我持乐观态度。虽然会出现混乱和失业，但如果我们打好基础，就有可能迎来丰饶的后稀缺时代。