AI智能总结
A I 赋 能 人 力 资 本 智 能 化 变 革 AI黑科技揭秘顶尖科学家团队力作AI+HR创新应用 前言 献给走在数字化浪潮前沿的 HR 们, 数字经济时代已全面开启,大数据、人工智能、云计算等新科技推动经济、社会、企业发生翻天覆地的变化,也将赋予人力资本巨大的变革力量。 企 业 纷 纷 在 寻 求 智 慧 变 革,人 力 资 源 部 门 是 推 动 企 业 变 革 的 重 要 动 力 之 一,HR也 要 时 刻 随 着 时 代 和 科 技 的 变 化 而 变 化,找 到 并 驾 驭 合 适、高 效 的 智 能化工具。 在 这 场 浪 潮 中,思 变 的 企 业 和 HR 们 已 经 开 始 寻 求 变 革 新 路 径。作 为 人 力 资本数字化平台和数字化人才战略的先行者,e 成科技将始终与您同在,携手开启人力资本数字化新时代!” 本专栏内容由 HR 图灵学院出品,HR 图灵学院是 e 成科技打造的 HR 领域第一 AI 专栏,希望以此为窗口,向 HR 传达专业的 AI 知识与信息,赋予人力资本 领 域 变 革 力 量,以 AI 为 钥,携 手 HR 开 启 数 字 化 变 革 之 门!在 这 里,HR们可以得到前沿技术思考、行业技术干货、全球 AI 好物、HR+AI 创新应用等。 目录 第一部分人岗匹配 让 AI 技术提升人岗匹配效果,我们做了这些探索解锁这项 AI 黑科技,马上实现人岗匹配自由02-0910-17 18-23 人才画像画得好,数字化 HR 有妙招 第三部分音视频面试 24-29 AI 面试官来袭,HR 你准备好了吗? 第四部分 RPA 一文读懂 RPA、AI 与 HR 的关系真技术还是伪 AI,HR 如何选择合适的智能工具?30-3637-42 第五部分智能聊天机器人 43-51 请回答 BERT:HR 聊天机器人强大聊天技能背后的秘密 第六部分 人工智能历史 52-6061-6869-75 人工智能演义第一回:阿兰图灵开山鼻祖,达特茅斯豪杰聚义人工智能演义第二回:遇险阻创始人早逝,敢坚持三剑客逆袭人工智能演义第三回:一脉相承得失公论,两度寒冬冷暖自知 第七部分智能职业发展规划 76-84 叮,您的智能职业发展规划师已上线 第八部分人才盘点 85-94 看过那么多大厂经验,依然做不好人才盘点?你需要这款 AI 利器! 第一部分 场景:人岗匹配 内容: 让 AI 技术提升人岗匹配效果,我们做了这些探索解锁这项 AI 黑科技,马上实现人岗匹配自由 AI 黑科技: Embedding、知识图谱(KG)方法、自然语言处理(NLP)、非线性树模型、deep 模型、BERT、Word2Vec 模型等 让AI技术提升人岗匹配效果,我们做了这些探索 本 期 和 大 家 讨 论 下 “人 岗 匹 配 排 序 的 探 索 与 实 践”。从 人 力 资 源 管 理 的 发 展 来 看,人 岗 匹 配 大 致经历了三个阶段,“三历对照法”、“冰山挖掘法”、“全人匹配法”,而 AI 技术的引用将为企业迎来第四个——“数据解剖法”。 AI 技 术 实 现 人 岗 匹 配,离 不 开 数 据 的 处 理 和 模 型 的 选 择 与 训 练,看 似 高 深、复 杂 的 人 岗 匹 配 算法 模 型 背 后,这 一 切 是 怎 么 实 现 的 呢?本 期 院 长 就 和 大 家 探 讨 下 不 同 模 型 在 人 岗 匹 配 实 践 中 的创新应用。 “人 岗 匹 配” 是 企 业 人 力 资 源 管 理 的 核 心 问 题,更 是 所 有 HR 追 求 的 目 标。毫 不 夸 张 地 说,“人岗匹配” 是人力资源的起点,也是人力资源的核心目标之一。 本质上,企业和个人是利益共同体,只有使得组织利益和个体价值得到统一,做到 “岗得其人”、“人适其岗”,根据人不同的素质和个性将其安排在最合适的岗位上,做到 “人尽其才,物尽其用”,才能使人才发挥最大价值,同时激活组织。 那么,HR 如何做好人岗匹配呢? 以前,在千百 万 份 简 历 中 筛 选 人 才,是 HR 工作中 “解不开的劫”,每天花费大量的时间和精力对优秀简历和职位信息人工做匹配,不仅消耗着 HR 的积极性,往往结果也不尽如人意,筛不到合适的人才,难以满足业务部门的需求。 现在,数字经济时代的新技术给 HR 带来了更多可能,AI 技术将助力 HR 实现智能人岗匹配、大大提升人岗匹配效率与准确率,将 HR 从机械、琐碎的招聘工作中解放出来。 那么,实现 AI 人岗匹配背后的依据和逻辑又是什么呢? e 成科技基于前沿的自然语言处理技术和 深 度 学 习 模 型,并 结 合 大 量 数 据 和 知 识 图 谱,通 过 不 断 探 索 和 反 复 实 践,形 成 一 套 高 效 的 人岗匹配推荐算法系统,下面院长将详细为大家介绍这套系统及其背后的逻辑。 在人岗匹配的任务中存在 HR、职位(JD)、简历(CV)三种实体,人岗推荐系统中由 HR 发布职位,根据发布职位来推荐简历,该场景中需要优化推荐的准确率、召回率,提升 HR 更高的工作效率,提升岗位和简历的匹配度来减少招聘人才的成本。 在 经 典 的 机 器 学 习 排 序 模 型 中 通 常 分 为 两 种:复 杂 的 人 工 特 征 工 程 + 简 单 的 模 型,简 单 的 人 工特征 + 复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。 特征为王 以 JD 和 CV 对为背景,该场景为经典的机器学习排序问题,目标在于预测 JD 和 CV 是否匹配,数据集的采集则是来自我司产品 ATS 平台,HR 从系统根据 JD 推荐的 CV 来进行选择,符合要求将要走面试程序的则标为 1,否则标为 0。 2.1 特征介绍 常见的 JD 如下图 1 所示,其中包含格式化离散数据和整段文本数据,从整段文本数据获取招聘意图是提取 JD 特征的重点难点。 为 了 更 好 的 解 决 该 问 题,我 们 分 别 引 入 知 识 图 谱(KG)方 法 和 自 然 语 言 处 理(NLP)方 法,其中 KG 负责去充分提取文本中实体的关系和联系,NLP 则更好的获取 JD 本文和 CV 文本相似性信息。因涉及个人隐私此处不展示 CV 信息。 在以 JD 和 CV 对是否匹配的背景下,我们将特征主要分为以下几类: JD 特征:包含地点,学历硬性要求和利用知识图谱中提取的实体特征如(职能,公司,技能,专业,行业)等; CV 特征:包含性别,年龄,学历等基础信息和从工作经历描述文本中提取的实体信息,以及文本类特征等。 2.2 特征处理 > 在获取 JD 和 CV 的基础特征之后我们主要将特征主要分为四种类型: ID 离散特征:比如 UID,职能 ID,公司 ID,行业 ID,技能 ID,专业 ID 等。 硬性离散类特征:除了性别,年龄,工作地点等基础类型特征,还包含有知识图谱提取的实体之间的关系特征比如学校是否匹配,职能(工作职位对应能力)是否匹配等,此处成为 match特征。 连续性特征:除薪资等,还包含有知识图谱提取的实体之间的 graph embedding 的 vector 相似性值,此处成为 IDsim 特征。 Emdedding 特征:包括了 ID 离散特征的 vector,该 vector 有知识图谱的 graphembedding 方法产生(如 DeepWalk,LINE 等 )。文本 embedding 特征,该特征以 JD 和CV 对的方式输入 DSSM 模型产生 vector。 在 此 基 础 上 我 们 还 加 入 了 相 应 统 计 特 征,统 计 特 征 主 要 有 强 特 征 的 共 现 特 征 以 及 强 特 征 之 间 的多 样 性 统 计。特 征 之 间 的 应 用 以 及 组 合 根 据 模 型 不 同 而 展 开 讨 论,不 同 模 型 对 不 同 特 征 的 表 征能力不同。 02模型演变 在模型方面主要可以分为两个总方向,分别是非线性树和 deep 模型的探索,在探索上主要是根据不同模型的性质进行特征工程。 3.1 非 线 性 树 模 型 > 我 们 主 要 以 gbdt 为 主 的 树 模 型 展 开 特 征 工 程 的 探 索,gbdt 的 实 现 以xgboost 和 lgb 为主。gbdt 模型结构如图 2 所示,gbdt 为一个 boosting 模型,通过叠加多个弱模型来提升拟合能力,根据 xgboost 模型的优缺点我们可以充分挖掘可用特征。 我 们 再 次 整 理 上 一 节 可 用 特 征,主 要 有 ID 类 特 征(职 能、行 业、公 司、技 能、专 业 等);基 本信息匹配特征(年龄,工作经验,学校等)该特征为二分类特征,以 JD 和 CV 的 ID 类特征是否 匹 配 来 构 建 二 分 类 特 征(如 职 能 是 否 匹 配 等 称 为 match 特 征),将 这 两 类 统 称 为 硬 性 离 散 类特 征;JD 和 CV 类 的 graph embedding 产 生 vector 对 计 算 余 弦 值 作 为 连 续 特 征(称 为IDsim 特征),加上文本相似性特征(称为 textsim 特征)和薪资组成连续特征。值得注意的是文 本 特 征 主 要 根 据 JD 和 CV 的 格 式 分 为 title 和 description 两 个 部 分 来 挖 掘。考 虑 到xgboost 处理连续值的缺点我们将连续值进行分桶,桶数可由某维特征的分布来确定。将 ID 类特 征 也 一 同 加 入 到 树 模 型 中,这 是 考 虑 到 组 合 特 征 的 业 务 意 义。分 析 特 征 重 要 性 之 后,我 们 根据 特 征 现 象 去 做 统 计 特 征,比 如 出 现 频 率 统 计,特 征 共 现 统 计,多 维 特 征 多 样 性 统 计 等 操 作。相对应的 title 和 description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。 总之实验证明 ID 类特征,二分类特征,连续特征离散化,统计类特征,以及 embedding 产生的 vector 的交叉特征都会给模型带来正向收益。 3.2 深度模型的探索 > 深 度 模 型 对 比 树 模 型 更 加 突 出 了 非 线 性 的 拟 合 能 力,以 及 高 阶 特 征 的 交 叉 融 合 功 能。但 是 带 来的弊端就是模型的可解释性变差,根据结果反向特征工程变得困难起来。我们在 JD 和 CV 匹配场景下分别使用了 DNN,Wide&Deep,DeepFM,等模型尝试。 同时并借鉴了 PNN、DCN、DLRM 和 DKN 网络原理正在适配适合现有数据类型的模型。本节主要简要介绍 DNN 和 Wide&Deep,DeepFM 的使用,再阐述对现有数据的思考。 以 YouTube 的经典 NN 为开端(如图 3,引用自相应论文),现有的数据下如何去使用 DNN 达到 收 益 正 是 我 们 所 考 虑 的。在 现 有 的 特 征 中 除 了 上 文 提 到 的 二 分 类 特 征,embedding 相 似 性 等特征之外我们包含知识图谱抽取的实体 embedding 和文本 embedding。文本 embedding 主要 有 DSSM 模 型 产 生,双 塔 模 型 的 输 入 分 别 为 JD 的 title、description,CV 工 作 经 验 的title、description,双塔输出为 JD 和 CV 是否匹配。我们以双塔的每坐塔的最后输出 vector作为 JD 和 CV 的表征。本着论文中提到的原理我们去除了树模型中 ID 类特征,换成了 ID 对应的 vector,保 留 原 有 的 二