且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——第1章 自然语言处理简介

更新时间:2022-08-20 17:10:40

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第1章,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章 自然语言处理简介

NLTK基础教程——用NLTK和Python库构建机器学习应用
现在,让我们先从介绍自然语言处理(NLP)开始吧。众所周知,语言是人们日常生活的核心部分,任何与语言问题相关的工作都会显得非常有意思。希望这本书能带你领略到NLP的风采,并引起学习NLP的兴趣。首先,我们需要来了解一下该领域中的一些令人惊叹的概念,并在工作中实际尝试一些具有挑战性的NLP应用。

在英语环境中,语言处理研究这一领域通常被简称为NLP。对语言有深入研究的人通常被叫作语言学家,而“计算机语言学家”这个专用名词则指的是将计算机科学应用于语言处理领域的人。因此从本质上来说,一个计算机语言学家应该既有足够的语言理解能力,同时还可以用其计算机技能来模拟出语言的不同方面。虽然计算机语言学家主要研究的是语言处理理论,但NLP无疑是对计算机语言学的具体应用。

NLP多数情况下指的是计算机上各种大同小异的语言处理应用,以及用NLP技术所构建的实际应用程序。在实践中,NLP与教孩子学语言的过程非常类似。其大多数任务(如对单词、语句的理解,形成语法和结构都正确的语句等)对于人类而言都是非常自然的能力。但对于NLP来说,其中有一些任务就必须要转向标识化处理、语块分解、词性标注、语法解析、机器翻译及语音识别等这些领域的一部分,且这些任务有一大部分还仍是当前计算机领域中非常棘手的挑战。在本书中,我们将更侧重于讨论NLP的实用方面,因此我们会假设读者在NLP上已经有了一些背景知识。所以,读者***在最低限度上对编程语言有一点了解,并对NLP和语言学有一定的兴趣。

在阅读完本章之后,我们希望读者能掌握以下内容。

对NLP及其相关概念有个基本的了解。
完成Python和NLTK及其他库的安装。
编写一些非常基本的Python和NLTK代码片段。
如果你从来没有接触过NLP这个概念词,我们在下面给你推荐了两本书,请花一些时间阅读一下其中的任何一本——只需要看看它们的前几章即可。另外,你也应该快速浏览一下***上与NLP相关的页面。

《Speech and Language Processing》,由Daniel Jurafsky与James H. Martin合著。
《Statistical Natural Language Processing》,由Christopher D. Manning与Hinrich Schütze合著。