每天五分钟—Python机器学习:使用Python进行基本文本处理。
文本可以分成不同的基元。
- 文件。
- 句子。
- 单词。
- 字符。
文档是文本的集合。它包含句子,每个句子由单词组成,每个单词由字符组成。这些是在本章中使用的一些基本的文本原语。
首先,从Python中的一些基本的文本处理操作开始。
在Python中,字符串可以用引号或双引号声明。
text1 = "The Vikram Sarabhai Space Centre is a space research Centre of the ISRO, focused on rocket and space vehicles"
可以通过使用len( )函数来获取字符串的长度,它将返回字符串中的字符总数。
len(text1)
输出:109
如果想要得到字符串中单词的数量,首先需要分割字符串并计算单词数量,这可以通过使用split()函数来完成。 split()函数需要一个分隔符,通过该分隔符将字符串拆分为多个单词。
words1 = text1.split(" ") len(words1)
输出:19
也可以通过索引来获取子字符串,在Python中索引从0开始,这意味着可以通过text1 [0]访问第一个字符。
print(text1[4]) print(text1[4:10])
输出:V
Vikram
在字符串中使用不同的操作符以获得不同的结果,它们称为字符串特殊操作符,如表1.1所列。
表1.1
1.1.1 字符串比较
表1.2所列的这些函数根据在字符串上执行的操作返回布尔值(True / False)。
表1.2
#获取所有首字母为大写的单词 [wordCap for wordCap in words1 if wordCap.istitle()] #长度大于5的单词 [wordG5 for wordG5 in words1 if len(wordG5)>5]
1.1.2 字符串转换
表1.3所列的这些预定义的函数集用于字符串转换。
表1.3
1.1.3 字符串操作
字符串操作的相关函数如表9.4所列。
表1.4
大写文本。
text1.capitalize()
获取标题表单。
text1.title()
大写。
text1.upper()
对字符串的大小写字母进行转换。
text1.swapcase()
将字符串中所有大写字符转换为小写字符。
text1.casefold()
获取索引。
text1.index('a')
从左边查找。
text1.find('a')
从右侧查找。
text1.rfind('a')
按照行分割。
text1.splitlines()
删除字符串左侧的“The”。
text1.lstrip("The")
柠檬为大家准备了一些学习教程,希望可以帮助到大家。
获取方式:请大家转发+关注并私信小编关键词:“资料”即可获取。
相关推荐
机器学习之家 2020-11-10
mori 2020-11-06
jaybeat 2020-11-17
jaybeat 2020-11-02
changyuanchn 2020-11-01
Micusd 2020-11-19
人工智能 2020-11-19
81510295 2020-11-17
flyfor0 2020-11-16
lgblove 2020-11-16
Pokemogo 2020-11-16
Pokemogo 2020-11-16
clong 2020-11-13
lizhengjava 2020-11-13
ohbxiaoxin 2020-11-13
Icevivian 2020-11-13
EchoYY 2020-11-12
CSDN人工智能头条 2020-11-11
mogigo00 2020-11-11