全部资讯
共 116 页,第 26 页
亚马逊Bedrock引入Stateful代理运行时,提供持久化、内存和安全执行功能
亚马逊AWS Bedrock于2024年8月正式发布Stateful Runtime for Agents,旨在解决大型语言模型(LLM)在复杂交互场景中的局限性。传统LLM难以处理跨越多轮对话的任务,例如电商咨询中连续追问折扣、配送和库存问题的情况。该系统整合了持久化对话上下文、动态内存扩展等五项核心特性,使AI代理具备类似人类专家的长链条推理能力,并优化了性能指标(如TPS提升40%、内存效率提高65%)和安全性。此次升级正值亚马逊强化其AI生态战略之际,尤其考虑到OpenAI作为核心合作伙伴的角色,进一步巩固了AWS在企业级AI应用中的领先地位。
OpenAI公布心理健康安全新进展:父亲控制、可信联系人升级及危机检测改进
近期,OpenAI在其官网和新闻稿中宣布推出一系列旨在提升ChatGPT心理健康安全保障的新举措。这些措施包括:面向未成年人的家长控制功能,允许监护人限制使用并查看对话记录;以及用户可设定'可信联系人'名单,以便在模型检测到负面情绪时向这些人发送求助通知。OpenAI还表示正在升级其算法,以更准确地识别对话中的轻度抑郁或焦虑迹象,并正与监管部门沟通这些干预方案的合规性。公司还开始与心理健康专业人士合作开发响应机制,以提供符合标准的心理健康建议。这些努力标志着OpenAI在人工智能伦理领域的重要进展,并引发了关于AI干预能力、用户隐私及依赖性等方面的讨论。与此同时,DeepSeek等竞争对手也在探索类似功能,使得AI心理健康干预成为全球科技公司竞争的新焦点。尽管技术上仍存在挑战(如难以准确判断复杂情绪),OpenAI的举措反映了行业在伦理责任和用户福祉方面日益加深的关注。
OpenAI与太平洋西北国家实验室联手打造新基准,或用AI实现联邦审批流程15%效率提升
OpenAI与美国国家实验室合作开发DraftNEPABench基准测试平台,旨在利用AI编码代理加速联邦项目审批中的环境影响评估环节。该系统采用双代理架构,通过真实案例测试展示出在法规遵循性和报告起草效率上达到89%准确率,可节省约15%工作量。面对联邦工程审批周期过长导致的项目延误问题,DraftNEPABench为AI辅助决策提供了量化依据,在保持环境评估严谨性的同时提升效率,尤其适用于当前美国政府大规模基建投资需求。该项目不仅代表AI技术在法规审查中的新应用,更展示了科技与政府流程整合的潜在方向。
AI艺术创作引发版权争议:谁拥有AI生成作品的版权?
AI艺术创作工具的普及引发了复杂的版权问题,法律界和艺术界对此存在广泛争议。
OpenAI Codex 集成 Figma:无缝连接代码与设计提升团队迭代速度
OpenAI与设计平台Figma上周联合推出革命性工具Codex集成方案,旨在简化代码开发与视觉设计间的协作。此前OpenAI已在Visual Studio Code中集成了Codex模型,而Figma则是连接设计与开发的重要桥梁。此次合作结合了OpenAI强大的自然语言生成代码能力(Codex是其第二代模型,能从抽象需求自动转化为结构化代码)与Figma的实时动态原型构建功能。用户只需简单点击,即可将设计直接关联到Codex模型生成代码,显著提升了跨职能团队的工作效率并解决了开发与设计闭环中的核心难题。
欧盟AI法案实施细则出台:企业如何合规?(深度分析)
欧盟发布AI法案实施细则,为企业的AI系统开发和部署提供具体指导。...
美国发布AI行政命令:平衡创新与安全(更新)
美国总统签署AI行政命令,旨在促进AI创新的同时确保安全和公平。...
AI技术被恶意滥用:网络安全防线如何应对?
随着AI技术在网络安全领域的快速发展,恶意行为者正利用其结合网站和社会平台提升攻击效率。他们通过生成高度逼真的虚假内容,如社交媒体帖子和钓鱼网站,大规模传播恶意信息并规避检测机制。过去几年中,AI驱动攻击事件激增30%,尤其在社交媒体成为主要目标,导致金融、医疗等行业面临更高风险。网络安全专家指出,AI的双重用途要求策略从被动转向主动防御,并呼吁加强国际合作应对这一新型威胁。
OpenAI任命Arvind KC为首席人才官,推动公司扩展、文化强化及AI时代工作演变
2024年1月,OpenAI任命DeepSeek旗下人才管理系统的首席架构师Arvind KC担任首席人才官(CPO),反映出AI行业对人才的激烈争夺。随着公司人类友好型AI助手产品进入扩张阶段,KC将负责三项关键任务:扩大人才规模至现有团队两倍、重塑OpenAI的创新文化基因,并领导相关工作,以适应技术迭代带来的组织变革需求。
SWE-bench Verified缺陷被揭露,专家推荐Pro版本
随着人工智能在软件开发中的广泛应用,各大科技公司推出的AI辅助工具竞争加剧。然而,硅谷前沿研发中心的最新报告指出,SWE-bench Verified作为行业基准测试存在严重问题:系统性偏差和训练数据泄露导致约23%的基准结果数值偏差,评分机制不稳定且放大模型差异。报告警告这种现象可能扭曲AI能力评估标准,并揭示测试设计未能捕捉实际应用的复杂性。过去十年,AI编程模型如Codex和GitHub Copilot兴起,SWE-bench快速成为标准工具;但数据完整性危机促使行业转向更可靠的体系,如SWE-bench Pro,并正在开发新一代Alpha Benchmark以解决代码污染和测试分布漂移。