R语言学习笔记（二十一）：字符串处理中的元字符

MATLAB

2018-01-17

元字符有自己的特殊含义

states <- row.names(USArrests)
# 提取字符串子集
substr(x = states, start = 1, stop = 4)
abbreviate(states, minlength = 5)
# 计算字符串长度
state_chars <- nchar(states)
# 字符串匹配
grep(pattern = "w", x = states, value = T)
# 匹配大写和小写

[ ]内的任意字符将被匹配

grep(pattern = "[wW]", x = states, value = T)
grep(pattern = "w", ignore.case = T, x = states, value = T)
tolower(states)     # 变为小写
toupper(states)     # 变为大写
library("stringr")
# 含a的数目
str_count(states, "a")

\对元字符进行转义

strsplit("strsplit.also.uses", split = ".")
strsplit("strsplit.also.uses", split = "\\.")
str_extract_all("me credit card: 334", pattern = "\\d")

^匹配字符串的开头，将^置于character class 的首位表达的意思是取反义。如[ˆ5] 表示匹配除了“5” 以外的所有字符。

test_vector <- c("123","456","321")
str_extract_all(test_vector, "3")
str_extract_all(test_vector, "^3")
str_extract_all(test_vector, "[^3]")

$匹配字符串的结尾。但将它置于character class 内则消除了它的特殊含义。如[akm$]将匹配'a','k','m' 或者'$'。

str_extract_all(test_vector, "3$")
str_extract_all(test_vector, "[3$]")

.匹配除换行符以外的任意字符。

str_extract_all(string = c("regular.exp\n","\n"), pattern =".")

| 或者

str_extract_all(string = "we23", pattern ="b|w|3")

?此符号前的字符(组) 是可有可无的，并且最多被匹配一次

str_extract_all(string = c("abc","bc","ac"),pattern = "ab?c")

( )表示一个字符组，括号内的字符串将作为一个整体被匹配

str_extract_all(string = c("abc","ac","cde"),pattern = "(ab)c")

*此符号前的字符(组) 将被匹配零次或多次

str_extract_all(string = c("abab","abc","ac"),pattern = "(ab)*")

+前面的字符(组) 将被匹配一次或多次

str_extract_all(string = c("abbab","abc","ac"),pattern = "ab+")

{n,m} 重复n次到m次

str_extract_all(string = c("abababab","ababc","abc"),pattern = "(ab){2}")
str_extract_all(string = c("abababab","ababc","abc"),pattern = "(ab){2,}")
str_extract_all(string = c("abababab","ababc","abc"),pattern = "(ab){2,3}")

字符 string ul states

MATLAB

0 关注 0 粉丝 0 动态

相关推荐

php 字符串分割函数 str_split,chunk_split

如果 split_length 小于 1，返回 FALSE 。如果 split_length 参数超过了 string 超过了字符串 string 的长度，整个字符串将作为数组仅有的一个元素返回。否则每个字符块为单个字符。var_dump; //产生警告

amberom 2020-08-03

String、StringBuffer和StringBuilder的区别

String类是不可变类，即一旦一个String对象被创建以后，包含在这个对象中的字符序列是不可改变的，直至这个对象被销毁。一旦通过StringBuffer生成了最终想要的字符串，就可以调用它的toString()方法将其转换为一个String对象.Str

zhuyonge 2020-07-26

python中strip(),lstrip(),rstrip()函数的使用讲解

（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。）如果strip()的参数为空，那么会默认删除字符串头和尾的空白字符。#这里注意字符串a的两端都有一个空白字符，字符a和n之间也有一个。这两个函数和上面的strip()基本是一样的，参数

世事一场大梦 2020-11-17

shell模糊匹配与正则详解

正则可以实现一些简单的功能，并用在脚本中，如检测ip地址是否符合规范，检测文件名是否符合规范等等。正则表达式主要是用来描述一个句法规则的模式。其实说的通俗一点，就是利用字符和元字符的组合，对一些符合既定句法的模式进行模糊匹配。它的主要功能是文本查询和字符串

wangzhaotongalex 2020-10-20

Shell—正则表达式（grep命令、sed工具）

正则表达式对于系统管理员来说是非常重要的，熟练运用正则表达式可使工作变得更加简单、方便。简单来说，是一种匹配字符串的方法，通过一些特殊符号，实现快速查找、删除、替换某个特定字符串。正则表达式对于系统管理员来说是非常重要的，系统运行过程中会产生大量的信息，这

rechanel 2020-11-16

如何用Python清理文本数据？

不是所有数据格式都会采用表格格式。随着我们进入大数据时代，数据的格式非常多样化，包括图像、文本、图形等等。在本文中，将展示如何使用Python预处理文本数据，我们需要用到 NLTK 和 re-library 库。我们这样做的原因是为了避免区分大小写的过程。

cakecc00 2020-11-06

【教程】图文解读正则表达式的使用技巧

一个好的正则表达式看起来像魔法，但请记住：任何足够先进的技术都无法与魔法区分开来。所以，就让我们揭开正则表达式的神秘面纱！如果你理解正则表达式，它会突然变成一个超快速和强大的工具……让我们从基础开始。它们的用途是什么？正则表达式通常用于 grep 等工具中

cshanzhizi 9评论 2020-10-16

如何掌握正则表达式这一开发利器，看这篇就够了

正则表达式具有伟大技术发明的一切特点，它简单、优美、功能强大、妙用无穷。对于很多实际工作来讲，正则表达式简直是灵丹妙药，能够成百倍地提高开发效率和程序质量。表示数字、大小写字母和下划线。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。

luofuIT成长记录 2020-09-22

Golang 中的 Unicode 与 UTF-8

大多数的我们，真正认识到有字符编码这回事，一般都是因为遇到了乱码，因为我国常用的编码是 GBK 以及 GB2312：用两个 Byte 来表示所有的汉字，这样，我们一共可以表示 2^16 = 65536 个字符，一旦我们的 GBK 以及 GB2312 编

周游列国之仕子 2020-09-21

什么叫做类比，为什么有些 Python 入门教程结构不合理

想必关注未闻 Code的同学或多或少都在网上看过各种各样的 Python 入门教程。这些教程在讲 Python 基础数据结构的时候，一般是按照下面这个模式来讲的：。这个结构虽然说是中规中矩由浅入深，但是它并没有让读者做到类比学习触类旁通。因为这些教程的教

PYTandFA 2020-09-15

如何使用Grep命令查找多个字符串

大家好，我是良许!今天向大家介绍一个非常有用的技巧，那就是使用 grep 命令查找多个字符串。简单介绍一下，grep 命令可以理解为是一个功能强大的命令行工具，可以用它在一个或多个输入文件中搜索与正则表达式相匹配的文本，然后再将每个匹配的文本用标准输出的

taomengxing 2020-09-07

C# 正则表达式

.Net 框架提供了允许这种匹配的正则表达式引擎。模式由一个或多个字符、运算符和结构组成。正则表达式中的反斜杠字符（\）指示其后跟的字符是特殊字符，或应按原义解释该字符。与报警符 \u0007 匹配。" + ‘\u0007‘ 中的 "

MaggieRose 2020-08-19

Python基础---转义字符——Python

字符串中的转义字符。\t 在控制台输出一个制表符，协助在输出文本时垂直方向保持对齐。制表符的功能是在不使用表格的情况下在垂直方向按列对齐文本

kevinweijc 2020-08-18

动态规划（四）——如何实现搜索引擎中的拼写纠错功能？

如何量化两个字符串之间的相似程度呢？有一个非常著名的量化方法，那就是编辑距离。编辑距离指的就是，将一个字符串转化成另一个字符串，需要的最少编辑操作次数。莱文斯坦距离和最长公共子串长度，从两个截然相反的角度，分析字符串的相似程度：。根据回溯算法的代码实现，我

earthhouge 2020-08-18

vim

如果不知道vim需要安装的包名称可以使用以下命令来查询vim的包名称；如果是20h，表示左移20个字符。:s/word1/word2/g：在当前行将word1替换成word2（！！另存文件会自动创建:r [filename]：读取filename指定文件中

yonggeno 2020-08-18

正则表达式常用的字符类

=\") \"表示转义，即双引号"其中(?=)为正向预搜索，表示要匹配的字符串后面必须是".*?表示要匹配的部分比如：正式表达式：(?美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它

jyj00 2020-08-15

关于 JavaScript 字符串的一个小知识

说起字符串，我们再熟悉不过了。接触编程的第一个经典任务就是输出字符串：Hello, world。但是你知道 JavaScript 字符串在计算机里是怎么表示的吗?最简单直观但不太准确的的理解就是，字符串就是由英文字母、数字和标点符号等这些字符组成的序列。

CXsilent 2020-08-12

（三）python之字符编码

# 1、打开编辑器就打开了启动了一个进程，是在内存中的，所以，用编辑器编写的内容也都是存放与内存中的，断电后数据丢失。# 2、要想永久保存，需要点击保存按钮：编辑器把内存的数据刷到了硬盘上。# 3、在我们编写一个py文件，跟编写其他文件没有任何区别，都只是

yiyilanmei 2020-08-03

字符串匹配算法

虽然算不上什么好方法，但是非常简单。对于所有的暴力算法，我们应该思考如何进行优化，比如BF算法，当我们遇到不匹配字符的时候，只能从头的下一个字符开始匹配。这样其实做了很多无用的重复工作。二者的思想都是避免无用功的移动。step_good为后移位数；pos1

纬纬 2020-07-31

接口测试-url参数中出现+、空格、=、%、&、#等字符的解决办法

解决办法：在URL对应位置换成以下字符即可，对应关系如下：+ URL 中+号表示空格%2B空格URL中的空格可以用+号或者编码%20/分隔目录和子目录%2F?分隔实际的URL和参数%3F% 指定特殊字符%25# 表示书签%23& URL 中指定的参

jeason 2020-07-20

MATLAB

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号