OPENBASE知识众包平台解析
概要
OPENBASE是一个基于开放的中文开放域高质量免费知识图谱平台(openbase.openkg.cn),支持16个开放图谱下载,涵盖KG4AI百科、人物、七律、一带一路、法律、新冠事件、新冠临床、新冠百科、农业、佛学、二次元、KG4Openkg、清华Xlore、新冠英雄、新冠科研、新冠健康等。平台通过数据众包模式构建知识图谱,旨在解决疫情期间信息获取难题,提供科研、流行病学、事件、英雄、物资、临床、健康、防控、百科等多维度信息。
新冠图谱建设
OpenKG联合多机构专家构建新冠病毒相关知识图谱,完全免费开放。平台通过离线Python script实现新冠图谱知识众包任务的分配和抽样,并利用小程序版帮助用户利用碎片时间贡献数据。
OPENBASE与数据众包
Openbase是一个链接人与数据的众包平台,类似于Wikipedia的协作编辑、CMU-reCAPTCHA的图书电子化和AmazonMechanicalTurk的竞赛式众包。数据众包的优点包括降低时间和费用、集思广益、建设品牌;弊端包括平台研发运营成本、参与者不足、数据质量风险。
OPENBASE图谱数据众包流程
平台结合数据共享与众包,每个人既是贡献者也是获益者。流程包括抓取原始数据、专业人士制定标准任务、创建分发众包协作、审核生成优质图谱。
OPENBASE任务机制
以图谱实体SPO为中心,适配多种内容类型和标注类型,支持文本、网页、图像、视频等,可产出更丰富的数据。任务不局限于图谱实体,支持分类提取、清洗标注、评估等。
数据标注的重要性
数据标注对人工智能至关重要,特斯拉等企业通过人工+自动的数据标注流水线提升AI性能。
OPENBASE任务管理升级
任务管理后台优化,无需代码即可创建任务、分发数据,降低使用门槛。题型配置包括审核/验收、题型设置、题干/参考资料嵌入、重点属性关系醒目标记等。
提高众包标注效率
通过人员培训、工具优化(任务分拆、简化题型、流水线化)、运营管理(预算、效率、质量平衡、激励机制)提升人效。
控制众包数据质量
采用标准培训、权限管理、抽样质检、用户激励、反作弊、模型脚本监测、用户认证等手段确保数据质量。标注规则制定需考虑数据内容、输出结果、特殊条件、边界探讨等。
数据众包发展趋势
未来趋势包括数据流通频繁、人力增加、地域下沉、开源普及。
OPENBASE的未来
平台将向社群化、大众化、开源化发展。
核心观点
OPENBASE通过众包模式构建高质量知识图谱,有效解决信息获取难题,提升AI性能,并推动数据众包的普及和发展。