且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.11 小结

更新时间:2022-09-22 22:14:28

本节书摘来异步社区《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书中的第2章,第2.11节,作者:Nitin Hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.11 小结

在这一章中,我们讨论了所有与文本内容相关的数据挖掘与数据再加工话题。我们介绍了一些最常见的数据源,并用相关的Python包来对它们进行解析。其中,我们深入地探讨了标识化处理,从非常基本的字符串方法到自定义的基于正则表达式的标识器均有所涉及。

另外,我们还讨论了词干提取和词形还原。在这过程中,我们介绍了各种可用的词干提取器类型及它们各自的优缺点。我们还讨论了停用词移除的过程,这个操作的重要性,何时该执行停用词移除以及何时不需要执行它。我们还简单地讨论了如何清除文本中的罕见词,以及执行文本清理的重要性——这里包含了停用词和罕见词,我们会根据它们的频率分布来重点清除。最后,我们还提到了拼写纠错。我们在文本挖掘和文本清理上可以做的事情是无限的。每一种语料库都是一个新的挑战,并且都存在要除去某种新噪音的需要。我们需要花一点时间来了解一下自己的语料库需要执行什么类型的预处理操作,以及应该忽略掉什么东西。

在下一章中,我们将会看到一些与NLP相关的预处理,例如词性标注、断句处理以及NER等。我们会在下一章的某些开放性问题的提示和答案中作出解释。