NLP 研究概述
NLP 研究历史
NLP 研究始于 1946 年第一台电子计算机 ENIAC 出现后不久,1950 年图灵发表论文《计算机器与智能》,1954 年 IBM 实验室进行自动翻译实验,标志着 NLP 研究的开端。
NLP 基础关
NLP 基本任务与经典理论
NLP 的基本任务包括自然语言理解(Natural Language Understanding)和自然语言处理(Natural Language Processing)。核心理论涉及语言学、概率论和最优化方法。
如何过关
- 基础学习:通过相关课程和资源学习,如李宏毅的机器学习课程、斯坦福 CS224N 课程、邱锡鹏的神经网络与深度学习课程、中科院宗成庆的自然语言处理公开课等。
- 编程关:掌握 NLP 框架,如 R-NET、Transformer,每周内可独立实现基本结构。
- 论文关:参与论文阅读小组,关注 ACL、EMNLP、NAACL、COLING、IJCAI、AAAI、ICML、NIPS、ICLR、CVPR、ACMMM 等顶级会议,阅读 100+ 论文,选择热门方向进行深入研究。
热门方向选择
选择热门方向需满足以下条件:
- 有明显的益处;
- 描述简单;
- 尚且不具备明确的解法;
- 解决方案具备可测试性,大问题可拆解为多个子问题;
- 确保数据获取的可靠性和数量。
Motivation 找法
- 对任务的理解:通过经验、实验结果和错误分析找到 Motivation。
- 大规模论文阅读:发现解决方案或进行任务转换。
NLP 范式
NLP 研究范式包括:
- 特征工程:定义特征模板,如“无聊”的特征模板。
- 结构工程:设计神经网络结构。
- 目标函数挖掘:引入额外目标函数,如 Prompt Learning。
如何写论文
审稿人工作方式
- 专家型审稿人:仔细研读,反复推敲,即使文章质量不高也会给出较高评价。
- 非专家型审稿人:优先看题目、摘要和核心实验结果,决定录用或拒稿。
论文写作技巧
- 摘要:用一句话概括工作,包含关键词,避免专业术语和数学符号。
- Introduction:先介绍背景知识,再描述工作,使用 running example 解释方法。
- 相关工作:以作者为核心整理工作,以读者为核心阐述,符合读者认知惯性。
- 实验:使用标准数据和 state-of-the-art 系统,主实验证明显著超过 baseline,辅助实验分析参数影响。
- 图表:合理使用图、曲线、表、正文和公式,提高读者阅读体验。
文献阅读技巧
- 根据标题过滤 50% 论文;
- 根据摘要再过滤 20%;
- 根据介绍再过滤 20%;
- 剩余 10% 仔细阅读。
关键数据
- ACL 2021:13350 篇投稿,21.3% 录用主会,14.9% 录用 Findings 子刊。
- EMNLP 2021:3114 篇投稿,24.82% 录用。
- ICML 2021:5513 篇投稿,21.5% 录用。
- ICLR 2021:2997 篇投稿,28.7% 录用。
- NeurIPS 2021:9122 篇投稿,26% 录用,3% Spotlight。
研究结论
NLP 研究是一个快速发展的领域,需要不断学习新框架、阅读最新论文、选择合适的研究方向,并掌握高效的论文写作技巧。通过系统学习和实践,可以在这个领域取得成功。
张奇
复旦大学
0NLP的研究早在第一台电子计算机出现后不久就已经开展
1946年2月14日,由美国军方定制的世界上第一台电子计算机“电子数字积分计算机”(ENIAC ElectronicNumerical And Calculator)
1950年,图灵发表论文《计算机器与智能》
1954年,IBM实验室进行了自动翻译实验,将60句俄文自动翻译为英文
NaturalLanguageUnderstanding
NaturalLanguageProcessing
1基础关—目标1:NLP基本任务、经典理论
1基础关--如何过关
基础
提高
1基础关--如何过关
相关资源
https://www.bilibili.com/video/BV1JE411g7XF李宏毅2020机器学习深度学习(完整版)国语
斯坦福CS224N《深度学习自然语言处理》课程(2021)byChristopher Manninghttps://www.bilibili.com/video/BV1nP4y1j7rZ
神经网络与深度学习邱锡鹏https://www.bilibili.com/video/BV13b4y1177W
中科院宗成庆自然语言处理公开课https://www.bilibili.com/video/BV1Cb411T7Cd
2编程关---框架的迭代速度惊人
2编程关—每年算法都有新的热点
编程关—如何过关
1周内可独立实现R-NET、Transformer基本结构
ACL20213350篇论文投稿,最终有21.3%的论文被主会录用,并额外接收了14.9%的论文到Findings子刊。
EMNLP 2021共收到有效投稿3114篇,录用754篇,录用率仅为24.82%。
ICML 2021的论文接收结果已经公布,今年一共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.5%。
ICLR2021共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7%
NeurIPS2021收到有效论文投稿9122篇,接收率为26%,只有3%论文被接收为Spotlight。
100+300PaperReadingGroup+Topic
ACL、EMNLP、NAACL、COLING、IJCAI、AAAIICML、NIPS、ICLR、CVPR、ACMMM
Contrastive Learning for Many-to-many Multilingual Neural Machine Translation
Motivation:当前机器翻译任务还是以英语为中心,导致非英语方向发展滞后,本文中作者想要提出一个many-to-many的跨语言通用翻译模型。
Methods:
2.对句子中的phrase进行aligned的跨语言替换,对平行语料和单独语料的数据增强方法如下图
1.用对比学习的方法将多种语言映射到同一个语义空ss-间中,令不同语言同语义的句子在表示空间中尽量接近。
3论文关—如何过关
4任务关—研究热点切换速度快
选择热门的方向
选择冷门的方向
4任务关—热门方向年年换,我该如何选
1.有明显的益处;
2.描述简单;
3.尚且不具备明确的解法;
4.解决方案具备可测试性,大问题可以拆解为多个子问题,能观察到每个子问题的进程;
5.要确保研究中数据获取的可靠性以及足够数量
《学术研究你的成功之道》---凌晓峰,杨强
•横轴代表相应的研究领域用到的不同方法、方案和技术•纵轴表示要解决的研究问题或潜在的研究问题•具有相关性的研究问题要按照顺序排放,无相关性的研究问题可以随意摆放
《学术研究你的成功之道》---凌晓峰,杨强
之前的分词算法在处理未登录词或者处理领域特有词时,会有问题
之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析
4任务关—如何找到Motivation
对任务的理解—经验实验结果错误分析
大规模论文阅读--发现解决方案
Hashtag Recommendation for MultimodalMicroblog Using Co-Attention Network
CVPR,Visual Question Answering任务论文
大规模论文阅读--任务转换
任务关—过关条件
之前的分词算法在处理未登录词或者处理领域特有词时,会有问题
之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析
莱特兄弟飞行者一号人类歷史上首次重于空气的航空器持续而且受控的动力飞行
!"#$%&'()*+
!,#$%&-./012)*+
!3#$%&456)789:;<*+
!=#$%&>?'@456AB)PromptLearningC
!"#$%&'()*+
词形分析任务
识别规则名词、不规则名词单数、不规则名词复数
规则名词“box”(以及其他以“z,s,x’’结尾的规则名词)
4自然语言处理范式
!,#$%&-./012)*+
特征工程(Feature Engineering):我们要进行
“无聊“的特征模板定义环节
!,#$%&-./012)*+
中文分词任务
结构工程(ArchitectureEngineering):神经网络虽然解放手动配置特征模板所需要的人力,但是是以需要人工去设计合适网络结构。
4自然语言处理范式
!3#$%&456)789:;<*+
目标函数挖掘(Objective Engineering):这个过程研究者往往是通过引入额外的目标函数到预训练语言模型上,以便让其更适配下游任务
4自然语言处理范式
!3#$%&456)789:;<*+
4自然语言处理范式
!=#$%&>?'@456AB)PromptLearningC
情感倾向分析任务
输入:我喜欢这个电影输出:“正面"或者"负面"
Prompt Learning转换为“完形填空",输入:我喜欢这个电影,整体上来看,这是一个__的电影输出:“有趣的"或者"无聊的"
4自然语言处理范式
!"#$%&'()*+语言学***
!,#$%&-./012)*+语言学**,概率**,最优化***
!3#$%&456)789:;<*+语言学,概率*,最优化**
!=#$%&>?'@456AB)PromptLearningC语言学,概率*,最优化**
!D#$%&EFG;?897@
审稿人一定是专家,⽆无所不知。打印出来,仔细研读揣摩数天,对于看不懂的地⽅反复推敲。即使你的英⽂文写得极其糟糕、即使你的⽂文章组织很混乱、即使你的表述很难看懂,审稿人花费了大量的时间后终于看懂了,他认为你的工作是有意义的,决定给你个borderline或以上的分数。
*AB89⼈CC=>?897@
他不一定是专家,一直忙于其他事,在deadline到来之前一天要完成n篇。审稿时他往往先看题目、摘要,扫一下introduction(知道你做什么),然后直接翻到最后找核心实验结果(做得好不好),然后基本确定录还是不录(也许只用5分钟!)。如果决定录,剩下就是写些赞美的话,指出些次要的小⽑毛病。如果决定拒,下面的过程就是细看中间部分找理由拒了。
第⼀印象定录拒,5分钟内打动审稿人
5如何写论文–微博上的佐证
以作者为核心整理工作
以读者为核心阐述⼯工作
信息的呈现符合读者的认知惯性
深入浅出,引人入胜,让读者快速找到想要的信息
尽量降低读者的理解难度
合理地综合使用信息元素:图>曲线>表>正文>公式
尽量提高读者阅读时的愉悦感
思想新颖、组织合理、逻辑严密论证充分、文笔优美、排版美观
如何写论文—降低信息理解难度是关键
正文
表格
算法
公式
证明
如何看浩如烟海的文献?
•根据标题过滤50%•根据摘要再过滤20%•根据介绍再过滤20%•剩下的10%再仔细看论文
黄铠
中科院云计算中心首席科学家IEEE Life Fellow
•用一句话概括你所做的工作
•考虑搜索引擎的影响,包含关键词
•可以适当地别出心裁
几句话概括你的工作
误区
•力图把所有细节都说清楚•用很专业的术语来描述•出现数学符号
用语要简单,让外行能看懂
5如何写论文--摘要的一个例子
研究的任务是什么现有的方法有什么问题我们的解决思路是什么实现这个思路会遇到哪些难点我们如何解决的我们解决的还不错
研究的任务是什么
如何写论文—Introduction部分的写法
现有的方法哪些
现有的方法有什么问题
我们的解决思路是什么我们如何解决的
我们的核心贡献是什么
现在非常流行在第一页右上部分加入一个图表说明本文的Motivation
•每个段落有个论断性的中心句
•其余部分都是支撑句,围绕中⼼心句展开论证
•前人工作•具体数据
•支撑句之间可分类组织
•段尾可以加上衔接句
John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional Random Fields: Probabilistic Models forSegmenting and Labeling Sequence Data. In ICML 2003.
不要一上来就描述你的工作,可以先介绍背景知识(往往就是baseline)
•有利于降低初学者或其他领域学者的理解难度•有利于对introduction中的论文做更详细的解释•有利于对比baseline和你的方法
•英语不好说不清楚?用例子!
•全篇统一使用一个running example,用来阐释你的方法(甚至是baseline)•围绕着running example,展开描述你的工作•审稿人能从running example中更舒服地了解你的工作,读正文会花掉他/她更多时间•看完running example,审稿人便能知道核心思想
•公认的标准数据和state-of-the-art系统
•实验先主后辅
•主实验(测试集):证明显著超过baseline
•辅助实验(开发集):参数的影响
•不辞辛劳,做到极致!!!
最好能直接看懂图,不用再去看正文
如何写相关工作附录的写作技巧写作常见问题引用的写法提高英语写作的窍门
!"#$%&'()*+,-./0
谢谢!