AI智能总结
张奇 复旦大学 0NLP的研究早在第一台电子计算机出现后不久就已经开展 1946年2月14日,由美国军方定制的世界上第一台电子计算机“电子数字积分计算机”(ENIAC ElectronicNumerical And Calculator) 1950年,图灵发表论文《计算机器与智能》 1954年,IBM实验室进行了自动翻译实验,将60句俄文自动翻译为英文 NaturalLanguageUnderstanding NaturalLanguageProcessing 1基础关—目标1:NLP基本任务、经典理论 1基础关--如何过关 基础 提高 1基础关--如何过关 相关资源 https://www.bilibili.com/video/BV1JE411g7XF李宏毅2020机器学习深度学习(完整版)国语 斯坦福CS224N《深度学习自然语言处理》课程(2021)byChristopher Manninghttps://www.bilibili.com/video/BV1nP4y1j7rZ 神经网络与深度学习邱锡鹏https://www.bilibili.com/video/BV13b4y1177W 中科院宗成庆自然语言处理公开课https://www.bilibili.com/video/BV1Cb411T7Cd 2编程关---框架的迭代速度惊人 2编程关—每年算法都有新的热点 编程关—如何过关 1周内可独立实现R-NET、Transformer基本结构 ACL20213350篇论文投稿,最终有21.3%的论文被主会录用,并额外接收了14.9%的论文到Findings子刊。 EMNLP 2021共收到有效投稿3114篇,录用754篇,录用率仅为24.82%。 ICML 2021的论文接收结果已经公布,今年一共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.5%。 ICLR2021共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7% NeurIPS2021收到有效论文投稿9122篇,接收率为26%,只有3%论文被接收为Spotlight。 100+300PaperReadingGroup+Topic ACL、EMNLP、NAACL、COLING、IJCAI、AAAIICML、NIPS、ICLR、CVPR、ACMMM Contrastive Learning for Many-to-many Multilingual Neural Machine Translation Motivation:当前机器翻译任务还是以英语为中心,导致非英语方向发展滞后,本文中作者想要提出一个many-to-many的跨语言通用翻译模型。 Methods: 2.对句子中的phrase进行aligned的跨语言替换,对平行语料和单独语料的数据增强方法如下图 1.用对比学习的方法将多种语言映射到同一个语义空ss-间中,令不同语言同语义的句子在表示空间中尽量接近。 3论文关—如何过关 4任务关—研究热点切换速度快 选择热门的方向 选择冷门的方向 4任务关—热门方向年年换,我该如何选 1.有明显的益处; 2.描述简单; 3.尚且不具备明确的解法; 4.解决方案具备可测试性,大问题可以拆解为多个子问题,能观察到每个子问题的进程; 5.要确保研究中数据获取的可靠性以及足够数量 《学术研究你的成功之道》---凌晓峰,杨强 •横轴代表相应的研究领域用到的不同方法、方案和技术•纵轴表示要解决的研究问题或潜在的研究问题•具有相关性的研究问题要按照顺序排放,无相关性的研究问题可以随意摆放 《学术研究你的成功之道》---凌晓峰,杨强 之前的分词算法在处理未登录词或者处理领域特有词时,会有问题 之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析 4任务关—如何找到Motivation 对任务的理解—经验实验结果错误分析 大规模论文阅读--发现解决方案 Hashtag Recommendation for MultimodalMicroblog Using Co-Attention Network CVPR,Visual Question Answering任务论文 大规模论文阅读--任务转换 任务关—过关条件 之前的分词算法在处理未登录词或者处理领域特有词时,会有问题 之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析 莱特兄弟飞行者一号人类歷史上首次重于空气的航空器持续而且受控的动力飞行 !"#$%&'()*+ !,#$%&-./012)*+ !3#$%&456)789:;<*+ !=#$%&>?'@456AB)PromptLearningC !"#$%&'()*+ 词形分析任务 识别规则名词、不规则名词单数、不规则名词复数 规则名词“box”(以及其他以“z,s,x’’结尾的规则名词) 4自然语言处理范式 !,#$%&-./012)*+ 特征工程(Feature Engineering):我们要进行 “无聊“的特征模板定义环节 !,#$%&-./012)*+ 中文分词任务 结构工程(ArchitectureEngineering):神经网络虽然解放手动配置特征模板所需要的人力,但是是以需要人工去设计合适网络结构。 4自然语言处理范式 !3#$%&456)789:;<*+ 目标函数挖掘(Objective Engineering):这个过程研究者往往是通过引入额外的目标函数到预训练语言模型上,以便让其更适配下游任务 4自然语言处理范式 !3#$%&456)789:;<*+ 4自然语言处理范式 !=#$%&>?'@456AB)PromptLearningC 情感倾向分析任务 输入:我喜欢这个电影输出:“正面"或者"负面" Prompt Learning转换为“完形填空",输入:我喜欢这个电影,整体上来看,这是一个__的电影输出:“有趣的"或者"无聊的" 4自然语言处理范式 !"#$%&'()*+语言学*** !,#$%&-./012)*+语言学**,概率**,最优化*** !3#$%&456)789:;<*+语言学,概率*,最优化** !=#$%&>?'@456AB)PromptLearningC语言学,概率*,最优化** !D#$%&EFG;<C 4从事自然语言处理深层次研究需要掌握基础理论 5如何写论文—审稿人是如何工作的 123456789:;<=>?897@ 审稿人一定是专家,⽆无所不知。打印出来,仔细研读揣摩数天,对于看不懂的地⽅反复推敲。即使你的英⽂文写得极其糟糕、即使你的⽂文章组织很混乱、即使你的表述很难看懂,审稿人花费了大量的时间后终于看懂了,他认为你的工作是有意义的,决定给你个borderline或以上的分数。 *AB89⼈CC=>?897@ 他不一定是专家,一直忙于其他事,在deadline到来之前一天要完成n篇。审稿时他往往先看题目、摘要,扫一下introduction(知道你做什么),然后直接翻到最后找核心实验结果(做得好不好),然后基本确定录还是不录(也许只用5分钟!)。如果决定录,剩下就是写些赞美的话,指出些次要的小⽑毛病。如果决定拒,下面的过程就是细看中间部分找理由拒了。 第⼀印象定录拒,5分钟内打动审稿人 5如何写论文–微博上的佐证 以作者为核心整理工作 以读者为核心阐述⼯工作 信息的呈现符合读者的认知惯性 深入浅出,引人入胜,让读者快速找到想要的信息 尽量降低读者的理解难度 合理地综合使用信息元素:图>曲线>表>正文>公式 尽量提高读者阅读时的愉悦感 思想新颖、组织合理、逻辑严密论证充分、文笔优美、排版美观 如何写论文—降低信息理解难度是关键 正文 表格 算法 公式 证明 如何看浩如烟海的文献? •根据标题过滤50%•根据摘要再过滤20%•根据介绍再过滤20%•剩下的10%再仔细看论文 黄铠 中科院云计算中心首席科学家IEEE Life Fellow •用一句话概括你所做的工作 •考虑搜索引擎的影响,包含关键词 •可以适当地别出心裁 几句话概括你的工作 误区 •力图把所有细节都说清楚•用很专业的术语来描述•出现数学符号 用语要简单,让外行能看懂 5如何写论文--摘要的一个例子 研究的任务是什么现有的方法有什么问题我们的解决思路是什么实现这个思路会遇到哪些难点我们如何解决的我们解决的还不错 研究的任务是什么 如何写论文—Introduction部分的写法 现有的方法哪些 现有的方法有什么问题 我们的解决思路是什么我们如何解决的 我们的核心贡献是什么 现在非常流行在第一页右上部分加入一个图表说明本文的Motivation •每个段落有个论断性的中心句 •其余部分都是支撑句,围绕中⼼心句展开论证 •前人工作•具体数据 •支撑句之间可分类组织 •段尾可以加上衔接句 John Lafferty, Andrew McCallum, and Fernando Pereira. Conditional Random Fields: Probabilistic Models forSegmenting and Labeling Sequence Data. In ICML 2003. 不要一上来就描述你的工作,可以先介绍背景知识(往往就是baseline) •有利于降低初学者或其他领域学者的理解难度•有利于对introduction中的论文做更详细的解释•有利于对比baseline和你的方法 •英语不好说不清楚?用例子! •全篇统一使用一个running example,用来阐释你的方法(甚至是baseline)•围绕着running example,展开描述你的工作•审稿人能从running example中更舒服地了解你的工作,读正文会花掉他/她更多时间•看完running example,审稿人便能知道核心思想 •公认的标准数据和state-of-the-art系统 •实验先主后辅 •主实验(测试集):证明显著超过baseline •辅助实验(开发集):参数的影响 •不辞辛劳,做到极致!!! 最好能直接看懂图,不用再去看正文 如何写相关工作附录的写作技巧写作常见问题引用的写法提高英语写作的窍门 !"#$%&'()*+,-./0 谢谢!