AI智能总结
赛迪检测认证中心有限公司二O二五年十二月 版权所有,未经许可不得转载引用 组织实施单位 赛迪检测认证中心有限公司组 长:王庆蒙副组长:宋建伟 成员:范海勤王强杨帅韩颖范恩羽辉 边琳谢佳辰见红玉马钰莹兰 技术支撑单位 安徽龙讯信息科技有限公司 报告咨询 潘春燕电话:15001116997邮箱:panchunyan@este.org.cn王庆蒙电话:118810111729邮箱:wangqingmengeste.org.cn 官方网站 中国软件评测中心:www.cstc.org.cn赛迪评估:www.ccidegov.cn 官方微信公众号 目录 调查背景二、调查范围,三、调查指标四、调查结果.9(一)智能问答整体建设态势(二)指标得分情况对比分析.10(三)大模型智能问答的表现.12五、建设成效16(一)压实合规责任,守住安全运行线,16(二)优化便捷适配,覆盖全人群需求21(三)构建全链功能,贯通办事全流程24(四)优化精准应答,保障答复可信度32六、主要问题,38(一)部分安全薄弱点需重点补强39(二)透明度适老化设计有待完善41(三)导办与多模态交互有待提升42(四)意图解析与知识效能需提升44七、发展建议.46(一)锚定战略导向,强化统筹治理体系..46(二)筑牢安全防线,严守合规运行底线47 (三)打造便捷体验,提升服务普惠水平.48(四)构建服务矩阵,完善全程功能支撑....49(五)建立应答体系,强化答复综合效能(六)健全迭代机制,构建长效发展生态附件相关政策文件和标准规范,..52 一、调查背景 政府网站是数学政府建设和服务型政府转型的重要门户与前沿阵地。在人工智能技术迅猛发展、公众数学化服务需求日益增长的背景下,部署应用智能问答系统,已成为各级政府提升在线服务效能、优化用户体验、促进政策精准传达的关键抓手和必然选择。科学调查其建设与应用现状,对深化“互联网+政务服务”改革、切实增强公众和企业获得感具有重要的现实意义和战略价值, (一)顺应国家战略与服务转型大势 当前,我国正深入推进“互联网+政务服务”改革和数学政府建设,国家层面系列政策文件明确要求提升政务服务智能化、精准化、使捷化水平。《国务院关于加强数学政府建设的指导意见》将智能问答定位为政民互动的关键载体,要求依托政府网站集约化平台统一知识问答库提升服务效能;《国务院办公厅关于印发全国一体化政务大数据体系建设指南的通知》明确提出构建智能问答等功能的通用算法模型,并将相关工作纳入政府绩效考核;《国务院关于进一步优化政则聚焦服务提质增效,要求强化人工智能大模型技术在精准交互、智能导办等场景的应用;《政务领域人工智能大模型部署应用指引》明确提出要充分发挥人工智能大模型在复杂语义理解与推理、多模态内容生成、知识整合与分析等方面的优势,并将智能同答作为应用场景 之一,利用自然语言理解、检索增强生成等技术提升信息获取使捷性。政府网站作为在线服务核心入口,持续强化其智能间答系统的建设,向纵深发展、加快建设服务型政府的必然要求。 (二)回应公众需求与破解服务痛点 随着数字素养的普及和商业平台体验的渗透,公众对政务服务提出了更高期待:渴望通过自然语言交互快速、精准地获取信息,解决“找不到、着不懂、问不清”的难题。这与政策中“提升政务服务智能化、精准化、便捷化水平”的要求高度契合,《国务院办公厅关于健全“高效办成一件事”重点事项常态化推进机制的意见》明确提出,要“稳要有序推进人工智能大模型等新技术在政务服务领域应用,为企业和群众提供智能问答、智能引导、智能预填、智能帮办等服务”,而传统网站导航复杂、人工咨询渠道有限等间题,恰恰与政策导向及公众期待存在差距。部署高效、智能的间答系统,是政府主动造应公众信息获取习惯变革、有效解决服务痛点、提升群众满意度和信任度的迫切举措。 (三)技术赋能与现实挑战并存 人工智能技术特别是自然语言处理和大语言模型的快速发展,为智能问答系统提供了技术支撑,这与《生成式人工智能服务管理暂行办法》中“规范利用技术提升服务效能”的导向一致。同时,政府积 累的海量政务数据为系统优化奠定了基础,契合《全国一体化政务大数据体系建设指南》中“数据驱动智能化服务”的要求。但实践中,同时在安全合规方面面临挑战:如存在《生成式人工智能服务管理暂行办法》中的安全问题、未按《人工智能生成合成内容标识办法》对生成内容进行显式标识等,这些既制约服务效能,也与政策中“安全同控、合规有序”的要求相俘, (四)评估驱动以提质增效 为切实发挥智能问答系统在提升政府服务效能、增强治理能力现代化水平中的作用,显需紧扣国家政策要求一一特别是《国务院关能力评估体系,促进模型能力有效送代提升”这一核心导向,对其应用现状开展科学、系统的评估。《政务领域人工智能大模型部署应用指引》提出“构建政务领域人工智能大模型部署应用全流程监测评估体系,适时开展蓝测评估工作”。通过评估精准摸清现有系统的真实表现一一既包括是否达到《国务院关于进一步优化政务服务提升行政办”的服务标准,也涵盖是否符合《生成式人工智能服务管理暂行办法》《政务大模型应用安全规范》《生成式人工智能服务安全基本要求》等文件和标准规范的安全合规要求;同时找准核心间题、分析深层原因、总结优秀经验,这是推动智能问答从“有”向“优”跃升的 关键前提。开展本次调查研究,旨在为国家相关政策的细化落实、地方最佳实践的推广复制、系统功能的送代优化提供客观、详实的决策依据,最终推动智能问答系统更好适配数字政府建设与政务服务高质量发展需求,成为提升群众和企业获得感的重要引擎。 因此,本次调查研究工作,是在国家政策明确指引、公众需求持续升级、技术赋能与合规挑战交织的背景下启动的。其核心目标是通过科学诊断,为各级政府精准把脉智能间答系统建设的成效与短板,进而为后续的系统送代升级、服务模式创新、政策标准完善提供科学指引,最终推动政府网站智能问答服务效能与安全合规性同步提升,使之真正成为赋能社会治理、增强人民幸福感的智能化基石。 二、调查范围 本次评估覆盖全国831家政府门户网站,涵盖部委门户网站62个,省级政府门户网站32个,省会、计划单列市门户网站32个,地级市301个,区县404个。 三、调查指标 依据《生成式人工智能服务管理暂行办法》《国务院办公厅关于件要求,本次政府网站智能问答系统调查研究聚焦安全可控、精准交互、服务贯通等核心维度:重点关注以下儿个方面。 一是严守安全底线,筑牢意识形态与数据防护屏障。智能问答系 统调查研究工作首重安全合规能力建设,须坚决落实意识形态贵任制:通过动态敏感词库与AI语义过滤双重机制,确保对违反社会主义核心价值观、历史虚无主义、错误政治导向、歧视性内容等有害信息的实时阻断与零传播。同步强化隐私安全防护刚性要求,严格实行敏感字段的自动脱敏及非必要不存储原则,对涉及特殊事项的咨询建立标准化应答流程,确保政治表述精准、数据安全可控,切实维护政府公信力与公民权益。 二是深化用户思维,构建便捷普惠的服务体验。调查研究工作需聚焦群众实际使用感受,着力提升系统交互便捷性与服务包容度。通过简化咨询路径、强化语音输入与识别功能、明示可答事项范围等措施,降低公众使用门槛。着重完善适老化与无障碍服务能力,并以刚性要求规范平台响应时延服务标准,使数字红利能够公平地惠及全体群体。 三是完害功能链条,打造全周期智能服务生态。系统功能完备度调查研究应当贯穿询的整个流程,构建分层级的能力验证体系。基础交互层着重检验诸如拼音识别、错别学自动矫正等降低使用门槛的功能;核心服务层考核多轮对话的上下文连贯性以及智能导办的一键跳转准确率;长效运营层要求建立历史对话追溯和用户评价反馈机制:够持续进化。 四是强化政策实效,推动解答精准直达民生诉求。答复有效度调 查研究须立足解决实际问题,重点验证复杂政务场景下的服务效能要求解答完整并关联推送办事入口与材料清单,实现“间答即办事”。严格推行政策依据标注制度,杜绝无源答复。同步建立知识库巡检机制,对过期信息及时清理、用户反馈的政策盲点及时补充入库,确保群众获取信息权威及时。 基于此,此次政府网站智能问答系统调查研究指标体系详见下表。 四、调查结果 (一)智能问答整体建设态势 本次调查研究覆盖全国831家重点政务网站,智能间答建设呈现“基础覆盖成型、技术升级起步”的阶段性特征,具体格局如下: 1.未建设智能问答系统:232家,占比28%,政务咨询仍依赖人 工热线、留言板等传统渠道,服务响应效率与便捷性不足; 2.传统规则驱动型智能间答系统(基于知识库检索+关键词匹配技术):476家,占比57%,为当前主流建设形态,已实现简单咨询的标准化应答,但受技术架构限制,服务效能难以突破; 3.大模型驱动型智能间答系统:123家,占比15%,处于低位渗透向规模化推广过渡的关键阶段。 综上,全国政务网站智能间答建设覆盖率达72%,标志着“AI+政务咨询”的基础服务网络已初步形成;但大模型技术渗透率仅15%:机制的意见》中“稳妥有序推广大模型应用”的政策导向相比,仍存在较大推广空间,技术赋能政务服务的潜力尚未充分释放。 (二)指标得分情况对比分析 从综合得分看,已部署大模型系统平均综合得分57.6分,普通智能问答系统平均得分26.6分,两类系统在核心效能指标上呈现显 著差异化,大模型技术对政务间答的赋能作用凸显。 两类已建设系统的综合效能呈现显著分层特征:大模型驱动型智能问答系统平均综合得分为57.6分,其中优秀(90分及以上)占比17%,良好(80-90分)占比3%、合格(60-80分)占比32%,不合格(60分以下)占比48%;而传统规则驱动型智能问答系统平均得分为26.6分,无优秀良好案例,高于40分的占比5%、40分以下占比95%。具体指标对比如下: 在安全合规度维度,普通智能间答系统平均绩效指数0.39,核心风险源于知识库更新滞后导致的答复失效;大模型驱动型智能问答系统平均绩效指数0.58,风险则集中在生成内容“幻觉”及溯源机制不规范等生成式技术特有问题。 使用便捷度方面,普通智能问答系统平均绩效指数0.54,大模型驱动型智能间答系统达0.71,优势显著。大模型通过优化交互逻辑,大幅降低用户咨询门槛,多轮对话流畅度接近人工服务,且在服务覆 盖时长与秒级响应速度上形成突出优势。 功能完备度维度差距明显。普通智能间答系统平均绩效指数仅0.17,多停留在“间答分离”的基础信息查询层面;大模型驱动型智流程闭环服务,服务深度与实用性大幅提升。 答复有效度维度表现最为悬殊。普通智能问答系统平均绩效指数0.20,大模型驱动型智能间答系统达0.65。大模型凭借强大的语义理解能力,可精准识别口语化、多条件组合类复杂咨询,政策条款关联分析能力远超传统关键词匹配模式;同时能自动拆解政策文件、生成标准化问答数据,显著提升知识库维护效率与人力复用率。 从得分分布来看,大模型驱动型智能问答系统已形成“头部引领,中部集聚”的发展格局,17%的优秀系统成为政务服务智能化标杆:而普通智能问答系统普遍处于“低效能运行”状态,在复杂场景适配、精准服务供给等方面难以满足公众对高质量政务咨询的需求,技术升级的繁性尤为突出。 (三)大模型智能问答的表现 从一级指标表现来看,各维度呈现出不均衡的发展态势。其中,“答复有效度”指标的平均绩效指数为0.65。当前部署大模型的政府网站智能问答系统建设正处于初步探索阶段,在服务效能、合规管理 等核心领域存在较大提升空间,垂需通过系统性深化优化实现质的突破。 1.安全合规度指标情况 根据调查结果,“安全合规度”各细分二级指标的平均绩效指数呈现明显差异:“对连续不合规提问的安全处置”表现最优,平均绩效指数为0.99;“对歧视性信息相关问题的防控”表现良好,平均绩效指数为0.83;“对意识形态信息相关问题的防控”“对落马官员相关间题的防控”和“对隐陷相关间题的识别处置”指标达到合格,平均绩效指数分别为0.66