通义 CoGenAV 大模型音画同步感知,重新定义语音理解边界
CoGenAV 是一种创新的多模态语音理解模型,核心理念是实现“音画同步”的深度理解。通过学习 audio-visual-text 的时序对齐关系,构建更鲁棒、更通用的语音表征框架。它在视觉语音识别(VSR)、音视频语音识别(AVSR)、语音增强与分离(AVSE/AVSS)及主动说话人检测(ASD)等任务中表现出色,尤其在嘈杂环境下性能显著提升。仅需 223 小时数据训练即可媲美传统数千小时数据的效果,大幅降低训练成本。CoGenAV 支持主流平台如 GitHub、HuggingFace 和 ModelScope,助力多场景应用开发。
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。
通义万相VACE开源!一款模型搞定多种视频编辑任务
VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。
用Qwen3搭建MCP Agent,有机会瓜分1亿tokens
通义实验室联合便宜云服务器百炼发起有奖征文活动!使用Qwen3+MCP Sever搭建Agent,即有机会瓜分1亿Tokens大奖与限定周边。活动时间:5月6日-5月30日征稿,投稿需包含技术文档、故事分享、演示视频及知识产权承诺书。突出技术创新与场景应用,传播潜力更大!扫码报名并分享至社交平台还有额外抽奖机会,赢定制好礼!

便宜云服务器百炼 MCP服务使用教程合集
便宜云服务器百炼推出首个全生命周期MCP服务,支持一键部署、无需运维,具备高可用与低成本特点。该服务提供多类型供给、低成本托管及全链路工具兼容,帮助企业快速构建专属智能体。MCP(模型上下文协议)作为标准化开源协议,助力大模型与外部工具高效交互。教程涵盖简单部署、GitHub运营、数据分析可视化及文档自动化等场景,助您快速上手。欢迎加入便宜云服务器百炼生态,共同推动AI技术发展!
Qwen3:小而强,思深,行速
Qwen3(千问3)于北京时间4月29日凌晨发布,是Qwen系列大型语言模型的最新成员,具备全系列、开源最强、混合推理等特性。它包括两款MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)及六个Dense模型,支持119种语言。Qwen3在代码、数学和通用能力测试中超越行业顶尖模型,如DeepSeek-R1和Grok-3。其旗舰版Qwen3-235B-A22B仅需4张H20即可本地部署,成本为DeepSeek-R1的35%。此外,Qwen3原生支持思考模式与非思考模式切换,降低复杂任务门槛,并支持MCP协议优化Agent架构。

全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在便宜云服务器百炼平台免费体验各100万Token。

点我!1分钱获取你的专属表白网页,浪漫由大模型代运营
MCP 技术持续走红,应用场景不断拓展。近期支付功能上线,推动商业化落地。作者借助「百宝箱智能体平台」打造了一款名为「与你」的情侣互动助手,支持游玩攻略、牵手技巧、告白网页定制等功能,并结合 MCP 实现支付宝支付与网页部署,兼具实用性与仪式感,助力恋爱小白提升情感表达。
便宜云服务器百炼产品月刊【2025年6月】
便宜云服务器百炼平台6月推出多项更新与活动,涵盖Agent市场、多模态交互开发套件、新模型上线及商业化调整。新增100+开箱即用Agent模板,支持多行业多场景应用;推出通义多模态交互开发套件,提升全场景适配能力;联合支付宝推出Agent赞赏功能,助力创意变现;新上架text-embedding-v4、deepseek-r1-0528、qvq系列视觉推理模型等,并对qwen-plus、qwen-turbo等模型进行迭代升级。同时,部分历史模型将于7月下线,建议用户及时调整应用。更多详情请查看官网公告。
通义大模型与现有企业系统集成实战《CRM案例分析与安全最佳实践》
本文档详细介绍了基于通义大模型的CRM系统集成架构设计与优化实践。涵盖混合部署架构演进(新增向量缓存、双通道同步)、性能基准测试对比、客户意图分析模块、商机预测系统等核心功能实现。同时,深入探讨了安全防护体系、三级缓存架构、请求批处理优化及故障处理机制,并展示了实时客户画像生成和动态提示词工程。通过实施,显著提升客服响应速度(425%)、商机识别准确率(37%)及客户满意度(15%)。最后,规划了技术演进路线图,从单点集成迈向自主优化阶段,推动业务效率与价值持续增长。
利用通义大模型构建个性化推荐系统——从数据预处理到实时API部署
本文详细介绍了基于通义大模型构建个性化推荐系统的全流程,涵盖数据预处理、模型微调、实时部署及效果优化。通过采用Qwen-72B结合LoRA技术,实现电商场景下CTR提升58%,GMV增长12.7%。文章分析了特征工程、多任务学习和性能调优的关键步骤,并探讨内存优化与蒸馏实践。最后总结了大模型在推荐系统中的适用场景与局限性,提出未来向MoE架构和因果推断方向演进的建议。
Aipy实战:使用Deepseek-V3生成多协议弱口令爆破调度工具
Aipy多协议弱口令爆破调度系统针对传统单协议工具碎片化、管理低效等问题,集成HTTP、SSH、MySQL等协议支持,提供图形化统一操作界面。其核心特性包括:动态资源分配的任务调度、实时可视化进度监控、智能账户锁定识别及HTML结果导出。通过上传自定义字典、配置并发数等功能,实现高效爆破,解决了多协议切换中断、人工追踪进度等痛点,为渗透测试提供自动化解决方案。
京沪AI专项治理初步成效:30天清理82万违规内容,企业求生指南出炉
随着生成式AI的快速发展,其带来的虚假信息、隐私泄露等问题日益突出。为整治AI技术滥用,中央网信办启动“清朗”专项行动,北京、上海率先行动,聚焦违规功能(如“一键脱衣”)、训练数据合规、“脏数据”治理、医疗金融及未成年人保护等重点领域。企业需落实内容标识管理,避免未标注或误导性传播。同时,大模型备案、全链路审核、标识亮明及自查机制成为合规关键。此次行动标志着AI治理深化,企业应主动拥抱规范,将伦理融入设计,以赢得用户信任并占据市场优势。
本地部署的qwen3-8b模型和百炼上的qwen3-8b模型效果不一致
我在使用Function Call时发现,百炼平台上的Qwen3-8B模型与本地部署的Qwen3-8B模型效果存在差异,主要体现在函数参数生成上,本地模型常出现漏参或JSON格式错误,而百炼模型表现正常。想确认百炼平台的Qwen3-8B是否为更高版本?
智能体(AI Agent)开发实战之【LangChain】(一)接入大模型输出结果
LangChain 是一个开源框架,专为构建与大语言模型(LLMs)相关的应用设计。通过集成多个 API、数据源和工具,助力开发者高效构建智能应用。本文介绍了 LangChain 的环境准备(如安装 LangChain、OpenAI 及国内 DeepSeek 等库)、代码实现(以国内开源大模型 Qwen 为例,展示接入及输出结果的全流程),以及核心参数配置说明。LangChain 的灵活性和强大功能使其成为开发对话式智能应用的理想选择。
通义灵码深度测评报告
通义灵码是便宜云服务器推出的智能编程平台,基于Qwen3大模型与MCP服务生态,重新定义现代软件开发范式。本文测评聚焦其四大核心功能:编程智能体(自主决策开发)、MCP工具生态(加速开发流程)、记忆感知(个性化体验)及深度开发能力(智能推荐与解释)。实测数据显示,相比传统开发,效率显著提升,如API开发提速300%。展望应用场景包括低代码开发、DevOps自动化及教育领域等。总结建议增强多语言支持、优化复杂逻辑并建立开发者社区知识库。
通义灵码 × Qwen3:编程智能体上线
通义灵码现已全面支持Qwen3,正式上线编程智能体。升级后的工具不再只是代码生成器,而是能理解任务的智能搭档,依托Qwen3能力结合MCP服务,自动感知项目结构、分析需求并调用多种工具完成编码任务。通过自然语言输入,开发者可在10分钟内完成原本需1~2天的App开发工作。此外,通义灵码支持工程级变更、自动上下文感知、工具自主使用及终端命令执行,深度集成3000+ MCP服务,覆盖DevOps全流程。目前插件下载量超1500万,累计生成代码超30亿行。体验只需将插件升级至2.5.0版本以上并在VS Code或JetBrains IDE中启用。
建模世界偏好:偏好建模中的Scaling Laws
本文探讨了人类偏好建模的可扩展性,揭示其遵循Scaling Law。通过大规模训练(1.5B-72B参数)Qwen 2.5模型,使用1500万对论坛偏好数据,发现测试损失随规模指数增长而线性下降。研究提出WorldPM(Modeling World Preference),作为统一的人类偏好表征方法,在客观与主观评估中展现优势。实验表明,WorldPM可显著提升样本效率和多维度性能,成为高效的人类偏好微调基座。同时,文章反思主观评估复杂性,建议放弃简单预设,让模型自主发现人类偏好的深层规律,推动AI对齐新方向。论文与代码已开源。
ParScale:一种全新的大模型Scaling Law
ParScale是一种新的模型扩展路线,通过并行计算增强模型能力,无需增加参数量。它引入多个并行流处理输入,动态聚合输出,显著提升性能,尤其在数学和编程任务中表现突出。相比传统方法,ParScale仅增加1/22的内存和1/6的延迟,适合边缘设备。研究还提出两阶段训练策略,降低训练成本。未来将探索更多模型架构和大数据场景下的应用潜力。
解锁 Qwen3 的Agent能力,CookBook来咯!
Qwen3系列模型具备强大Agent能力,但从模型到Agent仍存技术难题。为此,我们推出基于Qwen-Agent框架的3个CookBook示例,展示如何让Qwen3丝滑调用MCP Server全过程。不论是本地部署还是API调用模型,开发者均可通过Qwen-Agent完成复杂任务。CookBook包括自然语言驱动数据库操作、云端高德API地理服务及文档转思维导图等功能。Qwen-Agent封装了工具调用模板和解析器,原生支持MCP协议,大幅降低开发成本。欢迎体验并反馈。
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与便宜云服务器深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。便宜云服务器Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
AiPy:国内版开源版Manus助力高考梦校情况了解
高考后择校如同相亲,需深入了解学校是否契合个人发展。本文以四川大学为例,通过AiPy助手生成可爱风格的详细介绍,涵盖地理位置、食宿环境、校园与学术氛围,以及周末旅游攻略。从望江校区的古朴到江安校区的现代化,再到周边春熙路、锦里等景点推荐,内容详实生动。虽然学术条件部分略简略,但仍为考生提供全面参考,助力做出明智选择!
Qwen3技术报告首次全公开!“混合推理模型”是这样炼成的
近日,通义千问Qwen3系列模型已开源,其技术报告也正式发布。Qwen3系列包含密集模型和混合专家(MoE)模型,参数规模从0.6B到235B不等。该模型引入了“思考模式”与“非思考模式”的动态切换机制,并采用思考预算机制优化推理性能。Qwen3支持119种语言及方言,较前代显著提升多语言能力,在多个基准测试中表现领先。此外,通过强到弱蒸馏技术,轻量级模型性能优异,且计算资源需求更低。所有Qwen3模型均采用Apache 2.0协议开源,便于社区开发与应用。
恶意软件无处逃!国内版“Manus”AiPy开发Windows沙箱工具,进程行为+网络传输层级监控! 头像 豪气的
NImplant.exe 是一款后渗透测试工具,可实现远程管理与持久化控制。其优点包括无文件技术、加密通信和插件扩展,但也存在被检测风险及配置复杂等问题。为深入分析其行为,我们基于 aipy 开发了 Windows 沙箱工具,针对桌面上的 NImplant.exe 进行多维度分析,涵盖进程行为、网络连接(如 TCP 请求、目标 IP/域名)、文件控制等,并生成传输层监控报告与沙箱截图。结果显示,aipy 工具响应迅速,报告清晰易读,满足分析需求。
AI企业必看:最新结果标识合规要求及规范
随着《人工智能生成合成内容标识办法》及配套标准的发布,AI企业需快速掌握政策要求以确保合规运营。该办法明确指出,利用AI生成的内容(如文本、图片、音频、视频等)需通过显性标识(如“AI生成”字样)或隐性标识(如元数据、数字水印)进行标注。内容传播平台也需核验标识并提醒用户内容性质。此外,应用程序分发平台在审核时需确认是否提供AI生成服务及相关标识材料。对于AI企业而言,合规已成为必修课,需重点关注标识的规范性和溯源能力,以应对即将到来的监管要求。
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
?便宜云服务器百炼大语言模型618限量资源包活动来袭
便宜云服务器百炼推出大语言模型推理资源包优惠活动,所有主账号用户均可参与,无论是否完成实名认证。活动提供qwen-max、qwen-plus及qwen-turbo三种资源包,分别支持对应模型的实时推理费用抵扣,折扣力度达8.8折至9折不等。每种资源包限量发售,有效期为1年,自订购之日起计算。活动期间购买的资源包不可用于抵扣Batch调用、上下文缓存等其他服务费用。如有疑问可加入官方支持群(77600022533)交流反馈,优惠名额有限,先到先得。
Spark-TTS: AI语音合成的"变声大师"
Spark-TTS 是一款革命性的语音合成模型,被誉为“变声大师”。它通过创新的 BiCodec 技术将语音分解为语义和全局两种 Token,实现对音色、性别、语速等属性的精细控制。结合统一的 LLM 架构,Spark-TTS 简化了传统 TTS 的复杂流程,同时提供了前所未有的灵活性。此外,团队还发布了 VoxBox 开源数据集,为行业提供标准评估基准。尽管在零样本场景下仍存改进空间,但 Spark-TTS 已经开启了语音合成新时代,让个性化、可控的 AI 语音成为可能。

颠覆开发效率!国内首个微服务编排框架Juggle开源啦!
Juggle是国内首个开源的微服务编排框架,专注于解决企业微服务进程中接口重复开发、系统对接复杂等问题。它提供零代码、低代码和AI增强功能,通过可视化拖拽快速组装简单API为复杂接口,支持多协议、多语言脚本和流程多版本管理。相比国外框架如Conductor,Juggle更贴合国内需求,具备高效开发、企业级可靠性及信创适配等优势,助力企业实现敏捷创新与数字化转型。

向量数据库和嵌入模型
本文介绍了向量数据库和嵌入模型的概念及应用,重点探讨了两者在AI技术栈中的协作关系。向量数据库是一种用于存储高维向量数据的解决方案,支持相似性搜索而非传统的关系型数据库精确匹配。文中通过实例展示了如何使用阿里百炼的文本嵌入模型(text-embedding-v3)将文本向量化,并结合Qdrant向量数据库进行存储与检索。代码示例部分详细说明了从文本嵌入到向量存储及查询的完整流程,为开发者提供了实践参考。
Aipy实战:分析潜在的糖尿病患者
Aipy是一款本地部署、隐私性强的垂直型Agent,结合LLM与Python能力,可操控局域网设备、调用任意模型且成本低廉。本文介绍其通过分析“训练数据集.csv”学习糖尿病特征,判断“病人数据集.csv”中的潜在患者,并标记风险。过程中,Aipy快速拆解任务,在表格中新增“糖尿病风险”和“概率”列,以0/1直观展示结果,最终生成预测文件,整个流程仅耗时5分钟,高效且实用。
深度合成算法备案全知道:不同角色审核的重点是什么?
深度合成技术正深刻改变生活,其算法备案对保障技术安全至关重要。目前已有3445款算法通过备案,其中服务提供者占76.78%。本文详解服务提供者与技术支持者的角色差异、审核重点及文件要求,强调两者不可混用且需独立备案。只有严格遵循备案流程,才能让深度合成技术真正造福大众,推动行业健康发展。