【AI100 导读】本系列的每一篇文章都会为大家介绍一种新兴的技术,并且教大家如何入门相关的技术领域。本篇文章是为想进入 NLP 领域的人准备的。

我们很高兴能为大家介绍一个新的系列,这个新的系列我们称之为 Paths。在每一篇文章中,我们都会为大家介绍一种新兴的技术,并且会在文章中教大家如何入门相关的技术领域。

Paths 系列可以说是专门为创客和雄心勃勃的企业家而写的文章。我们曾和某些对工程领域、商业领域以及技术领域感兴趣的同学沟通,以找到那些对他们来说最有用的资源。然后,我们又联系了学术界专家、行业专家或者兼具两者的专家。

今天自然语言处理技术有哪些,我们将会聊一下自然语言处理。

通常情况下,我们不会去想人类理解语言有多么容易。在日常交流中,我们只是单纯地表达着我们的想法自然语言处理技术有哪些,从未想过大脑将大量非结构化数据转换成有用的信息的过程。但是对于机器来说,理解人类的语音和语言是非常难的。

什么是 NLP?

NLP 的全称是 Natural Language Processing,中文名为自然语言处理。该领域关注的是如何使机器理解人类的语言。

“这个新领域的目标是使计算机能够完成一些与人类语言有关的有用任务。它应该能够促进人机之间的交互,改善人与人之间的沟通。当然,也可能只是做一些有用的文本或语音处理。”——Jurafsky,Manning 2011

NLP 起源于语言学领域。二十世纪中期,NLP 因统计分析的进步得以发展。而近年来,NLP 凭着人工智能新技术的发展再次爆发。今天,虽然难以置信,但NLP 确实已经成为众多学科的交叉领域,汇集多种象征性的范例(想想基于一系列规则的模式匹配)和随机模式(从统计学和概率学中得到的)。

我们为什么应当留意自然语言处理呢?

NLP 正在改变我们和设备间的交互方式,并且这个领域正以令人难以置信的速度发展着。它可以被各种各样的人应用到各种各样的领域中。

以下是对某些运用了 NLP 技术的领域的调查:

这就是说,有很多困难的问题都可以用 NLP 来解决。所以现在就能参与到 NLP 中,会让人无比兴奋。

应用 NLP 的实例有哪些?

个人助理(Apple 的 Siri、Amazon 的 Alexa)、自动语言翻译(Microsoft 的 Skype、Google 的 Translate)、问答(Google 的 Search)以及文本自动摘要等,都是 NLP 在现实生活中的应用实例。

为什么 NLP 很难?

语言是非常模棱两可的,它依赖于微妙的线索和上下文来传达意思。

举个简单的例子:“I love flying planes”。

是我喜欢参加驾驶飞机的活动吗?还是因为人们给汽车插上了一对翅膀使它能够在空中飞行,我表示出欣赏呢?

一个简单的句子能表达出很多的意思。经过数千年的演化,人们的语言变得越来越简短,越来越含蓄。对人类来说,这样非常有效率。我们与他人的沟通是基于常识、基于谈话背景、基于对世界的了解的。口头交流的形式通常会用尽可能少的信息来传达尽可能多的意思。

当下计算机的最大挑战就是解决歧义的问题。结果就是,它们还需要努力去理解语言的意义。原因是计算机不能充分理解上下文,比如说常识和文化等。

为什么是现在?

最近促使 NLP 兴起的关键驱动力是网络,包括数量巨大的演讲和写作材料。配备多核 CPU/GPU 的现代计算机处理速度非常快,它们可以利用这些大型数据集及过去十年中开发出现的先进的机器学习方法。因此,我们成为了成熟应用自然语言算法环境的见证者。

“现在有大量的基础设施和工具可以供人类用,这在之前是无法获得的。这就像是网络开发时期的框架和工具一样,数量和种类都相当的多。现在的自然语言学习技术,火爆程度与之类似。”——Jimoh Ovbiagele,人工智能律师(ROSS intelligence)

近期 NLP 不断发展的另一个更为微妙的原因是:我们对计算设备的信任和依赖性。

“10年前,人们害怕计算机设备会自己做决策而不管人的想法。现在,同比以往任何时候,人们更希望借助一个拥有100%自主能力的人工智能来发送邮件。”——Sinan Ozdemir,Kylie.ai

我是一个创客,我已经对自然语言算法着迷了。我能做什么?

在 NLP 领域,某些基本技能对学术工作和实际应用工作都非常的有帮助。大学水平的代数和概率基础(如随机变量、分布、主题模型)对于理解这些基本的技能非常必要,可以说是基础。另外,至于为什么计算方法会处于第一位,语言学方面的知识(例如对语义学、语用学和语言的符号的理解)可以为我们提供有用的直觉引导。

除了开发数学和语言的工具,参加一些课程可以推动你……

“……理解如何用不同的方式来表现系统,使之变得更加自动化或者更加具有计算能力。在我大学的时候,我花了很多时间查看了一系列关于数学模型的书,以找到系统比较重要的方面。这是和自己沟通抽象想法的一种方式。”——Jacob Rosen, Legit Patents

最终,它会在帮助你得到某些数据的过程中发挥巨大的作用(如 Twitter 或 Reddit 的帖子),帮你建立起解决文本歧义的直觉。这个未过滤的/非结构化的文本是什么样子的呢?为什么数据要为了这个特殊的平台而进行这种方式的格式化呢?在模型化任何东西之前,试着去理解数据。然后,去构建你的统计模型,继而去优化系统的底层结构。

发表回复

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源