标记化
它可以被定义为将给定文本即字符序列分成称为令牌的较小单元的过程。令牌可以是单词,数字或标点符号。 它也被称为分词。 以下是标记化的一个简单示例 -
输入 - 芒果,香蕉,菠萝和苹果都是水果。
输出 -
打断给定文本的过程可以通过查找单词边界来完成。 单词的结尾和新单词的开头称为单词边界。 文字的书写体系和印刷结构会影响边界。
在Python NLTK模块中,有与标记化有关的不同包,可以根据需要将文本划分为标记。 一些软件包如下所示 -
sent_tokenize包
顾名思义,这个软件包会将输入文本分成几个句子。 可以使用下面的Python代码导入这个包 -
from nltk.tokenize import sent_tokenize
word_tokenize包
这个包将输入文本分成单词。可以使用下面的Python代码来导入这个包 -
from nltk.tokenize import word_tokenize
WordPuncttokenizer包
这个包将输入文本分成单词和标点符号。可以使用下面的Python代码来导入这个包 -
from nltk.tokenize import WordPuncttokenizer
//更多请阅读:https://www.yiibai.com/ai_with_python/ai_with_python_nltk_package.html
|