每天五分钟—Python机器学习:使用Python进行基本文本处理。

文本可以分成不同的基元。

  • 文件。
  • 句子。
  • 单词。
  • 字符。

文档是文本的集合。它包含句子,每个句子由单词组成,每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。

首先,从Python中的一些基本的文本处理操作开始。

在Python中,字符串可以用引号或双引号声明。

text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, 
focused on rocket and space vehicles"

可以通过使用len( )函数来获取字符串的长度,它将返回字符串中的字符总数。

len(text1)

输出:109

如果想要得到字符串中单词的数量,首先需要分割字符串并计算单词数量,这可以通过使用split()函数来完成。 split()函数需要一个分隔符,通过该分隔符将字符串拆分为多个单词。

words1 = text1.split(" ") 
len(words1)

输出:19

也可以通过索引来获取子字符串,在Python中索引从0开始,这意味着可以通过text1 [0]访问第一个字符。

print(text1[4]) 
print(text1[4:10])

输出:V

Vikram

在字符串中使用不同的操作符以获得不同的结果,它们称为字符串特殊操作符,如表1.1所列。

表1.1

每天五分钟—Python机器学习:使用Python进行基本文本处理。

1.1.1 字符串比较

表1.2所列的这些函数根据在字符串上执行的操作返回布尔值(True / False)。

表1.2

每天五分钟—Python机器学习:使用Python进行基本文本处理。

#获取所有首字母为大写的单词
[wordCap for wordCap in words1 if wordCap.istitle()] 
#长度大于5的单词
[wordG5 for wordG5 in words1 if len(wordG5)>5]

1.1.2 字符串转换

表1.3所列的这些预定义的函数集用于字符串转换。

表1.3

每天五分钟—Python机器学习:使用Python进行基本文本处理。

1.1.3 字符串操作

字符串操作的相关函数如表9.4所列。

表1.4

每天五分钟—Python机器学习:使用Python进行基本文本处理。

大写文本。

text1.capitalize()

获取标题表单。

text1.title()

大写。

text1.upper()

对字符串的大小写字母进行转换。

text1.swapcase()

将字符串中所有大写字符转换为小写字符。

text1.casefold()

获取索引。

text1.index('a')

从左边查找。

text1.find('a')

从右侧查找。

text1.rfind('a')

按照行分割。

text1.splitlines()

删除字符串左侧的“The”。

text1.lstrip("The")

每天五分钟—Python机器学习:使用Python进行基本文本处理。

柠檬为大家准备了一些学习教程,希望可以帮助到大家。

每天五分钟—Python机器学习:使用Python进行基本文本处理。

每天五分钟—Python机器学习:使用Python进行基本文本处理。

获取方式:请大家转发+关注并私信小编关键词:“资料”即可获取。

相关推荐