OpenAI发布全新/search API及两项音频模型,强化网络搜索与智能代理开发能力。CEO Sam Altman在Snowflake峰会表示Codex是AGI的重要进展。Gemma技术使用户能在本地硬件部署AI代理。Codex新功能允许互联网访问。v0平台助力全栈应用开发,集成OAuth、OpenAI及Stripe。精准语音控制技术OpenAudio S1在TTS领域实现突破。
— 此摘要由ai分析文章内容生成,仅供参考。

我们很高兴宣布,备受期待的/search API现已正式上线。
作为我们最受欢迎的端点之一,/search API旨在为开发者和代理提供一种极其简便的方式来发现和抓取网络内容。通过一次API调用,用户可以轻松地搜索整个互联网,并将结果以适合大型语言模型(LLM)的格式进行提取。
主要特点包括:
- 高效搜索:利用先进的算法快速检索相关内容。
- 无缝集成:支持多种编程语言和开发平台。
- 数据格式化:自动转换抓取的数据为LLM可直接使用的格式。
- 实时更新:确保获取到最新和最相关的信息。
该功能现已在我们的API、管理控制面板(MCP)以及所有集成中可用。
无论您是需要进行大规模的数据分析,还是希望简化日常开发工作流程,/search API都能为您提供强大的支持。
···

在2025年6月2日的Snowflake峰会上,OpenAI首席执行官Sam Altman分享了他对人工智能未来的看法。
Altman表示,他们最近推出的编码代理Codex是他亲身经历的一个通用人工智能(AGI)时刻。Codex能够处理各种任务,并在后台自主工作,表现出色。它不仅能够完成复杂的任务,还能够在不久的将来观察会议、阅读Slack消息和内部文档。
“这些模型在未来一两年内将会非常令人惊叹。” Altman说,“我们还有很多进步的空间,很多改进即将到来。”
他进一步强调,这些模型将能够理解用户提供的所有上下文信息,连接到各种工具和系统,并进行深入的推理,最终给出答案。它们的鲁棒性足以让用户信任它们独立完成工作。
Altman认为,这种能力已经离我们很近了,这让他感到非常兴奋。
【完整视频:https://t.co/3HV0GvQ51r】
···

据最新消息,OpenAI正准备在2025年6月3日发布两款支持原生音频处理的新模型:gpt-4o-audio-preview-2025-06-03 和 gpt-4o-realtime-preview-2025-06-03。这两款新模型将显著提升多模态处理能力,特别是在音频领域。

其中,gpt-4o-audio-preview-2025-06-03 旨在提供更强大的音频理解与生成功能,适用于语音识别、音频转文字、语音合成等应用场景。而 gpt-4o-realtime-preview-2025-06-03 则专注于实时音频处理,能够实现实时对话、语音命令理解和即时反馈等功能。
这一系列更新将进一步推动人工智能在音频处理领域的应用,为用户提供更加丰富和自然的交互体验。
···

最新消息,Claude Research和远程MCP集成现已正式向Pro用户开放。
Claude Research平台提供了一系列先进的自然语言处理工具,可以帮助研究人员和开发者更高效地进行模型训练和数据分析。远程MCP(Model Control Panel)集成则允许用户通过远程访问的方式,对模型进行实时监控和调整,极大提升了开发效率。
主要功能包括:
- 高级自然语言处理工具
- 实时模型监控与调整
- 灵活的远程访问能力
这些新功能将使Pro用户能够更好地利用Claude平台的强大功能,加速项目进展。
···
近日,OpenAI发布了四项重要更新,旨在进一步增强其构建智能代理的能力。
首先,**Agents SDK** 现已支持TypeScript,这将为开发者提供更强大的类型检查和更好的开发体验。其次,新的**RealtimeAgent** 功能专为语音代理设计,能够实现实时对话处理,显著提升了用户体验。
此外,**Traces** 支持已加入到Realtime API中,允许开发者追踪和记录实时数据流,从而更好地调试和优化系统。最后,OpenAI对其**语音合成模型**进行了改进,提供了更自然、流畅的语音输出。
这些更新不仅增强了技术的灵活性和可用性,还为开发者提供了更多工具,以构建更高效和智能的代理应用。
···

一篇关于使用Gemma在个人硬件上构建自定义AI代理的详细概述。这项技术带来了革命性的变化,用户可以在自己的笔记本电脑上完全本地化地创建和运行AI代理。
无需连接或支付给像OpenAI或Anthropic这样的提供商。结合开源的Google Gemma 3模型、Smolagents和LM Studio,即可搭建完整的本地AI代理环境。
主要优势:
- **完全本地化**:所有数据和处理都在本地进行,提高了隐私性和安全性
- **无需依赖云服务**:避免了对第三方服务的依赖,降低了成本
- **灵活性高**:可以根据具体需求定制AI代理的功能和性能
这对于开发人员和研究人员来说是一个巨大的福音,特别是在需要高度隐私保护的应用场景中,如医疗数据分析、金融交易等。
···

近日,OpenAI宣布向Plus用户发布了其编程助手Codex,并引入了一项新功能,使得Codex Agent能够访问互联网。

这项新功能已于今日正式上线,用户可以通过创建新的环境或编辑现有环境来启用互联网访问。默认情况下,互联网访问是关闭的,用户可以完全控制Codex在执行任务时能够使用的域名和HTTP方法。
关键点:
- 互联网访问需要手动开启
- 用户可以自定义Codex访问的域名和HTTP方法
- 详细了解使用方法及风险请参阅官方文档
这一更新为开发者提供了更大的灵活性和功能性,使Codex能够在更广泛的场景中发挥作用。例如,开发者可以利用Codex从互联网上获取实时数据,进行动态代码生成,或调用外部API等。
更多详细信息和使用指南,请访问:https://t.co/9LbzFI6WUb
···

kithbook_com团队正在使用v0平台构建全栈应用程序,集成了多项先进技术。目前,该团队已经完成了Google OAuth的身份验证功能,并有80人加入了等待名单,其中4人支付了3美元以获得早期访问权限。

下一步计划包括实现Gmail和Google日历的同步、整合OpenAI以及构建带有上下文的用户个人资料。这些功能将极大提升用户体验,并为用户提供更加个性化和智能化的服务。
主要更新:
- Google OAuth身份验证已成功实现
- 已有80人加入等待名单
- 4人支付了3美元以获取早期访问权限
下一步计划:
- Gmail和Google日历的同步
- OpenAI技术的集成
- 构建带有上下文信息的用户个人资料
通过v0平台,kithbook_com团队能够高效地开发并部署这些功能,为用户提供一个无缝且安全的应用体验。
···
近日,一项名为OpenAudio S1的精准语音控制技术引起了广泛关注。这项技术不仅在语音合成(TTS)领域取得了突破性进展,还为用户提供了前所未有的交互体验。
OpenAudio S1通过先进的自然语言处理技术,实现了高度自然和富有表现力的语音合成效果。在TTS-Arena评测中,它被评为第一名,其词错误率(WER)仅为0.008,字符错误率(CER)为0.004,在Seed TTS评估中处于领先地位。
OpenAudio S1的核心特点包括:
- 无与伦比的表现力与自然度:能够准确传达多种情感,从愤怒、快乐到悲伤,再到细腻的强调、低语和同理心等。
- 广泛的应用场景:适用于视频制作、有声读物、播客、AI伴侣、游戏等多种领域。
这一技术的出现,极大地丰富了人机交互的可能性,为创作者提供了更多实现创意的手段。
随着语音识别和合成技术的不断进步,精准语音控制将成为未来智能设备的重要组成部分,进一步推动人工智能技术的发展。
···

竞争分析变得前所未有的简单,这要归功于@firecrawl_dev新推出的/search端点。这一创新工具通过自动化流程,大幅提升了市场研究的效率。
该工具构建了一个强大的管道系统,能够自动识别竞争对手,并从他们的网站上抓取关键信息,最后生成详细的报告。整个过程由@LangChainAI的StateGraph驱动,确保工作流的顺畅执行。
**主要功能包括:**
- 自动发现和识别竞争对手
- 高效抓取目标网站数据
- 生成全面的竞争分析报告
通过这些功能,企业可以更快地了解市场动态,做出更有依据的商业决策。
**应用场景广泛:**
- 市场营销人员可以利用此工具进行竞品分析,优化推广策略;
- 产品经理可以通过分析竞争对手的产品特点,改进自身产品;
- 企业决策者可以基于详尽的数据报告,制定更具竞争力的战略。
总之,@firecrawl_dev的新/search端点为竞争分析提供了强有力的支持,极大提升了工作效率。


评论功能已关闭。