python简单的分析文本

zluxingzhe

2019-06-26

import collections
import re


#读取tips.txt文件内容，type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:
    
    mytips=tip.read().lower()

#正则去除非中英文字符，
strip_file=re.sub(r"\W+","",mytips)
print("正则去除非中英文字符:\n{}".format(strip_file))
print()

#筛选出所有英文单词
only_enlish=re.findall(r'[a-z]+',mytips)
print('筛选出所有英文单词:\n{}'.format(only_enlish))

#筛选出所有的中文
only_chinese=re.sub(r"[a-z1-9\W]+",'',mytips)
only_chinese_split=[c for c in only_chinese]
print('筛选出所有的中文\n{}'.format(only_chinese_split))

#如果most_common()参数为空，则按照从高频到低频依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印频率最高的五个字符{}".format(most_comm_word))


#sorted（iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序输出most_comm_word{}".format(low_comm_word))

#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4）指定值的most_comm_word{}".format(specified_most_comm_word))

#转化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print('转化成字典：{}'.format(dict_most_comm_word))

#zip在python3中是惰性计算，需要转化成list
word,count=list(zip(*most_comm_word))
print('单独打印word：{}'.format(word))
print("单独打印count:{}".format(count))

#defaultdict简单应用
#分析单词出现的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):
    enlish_dict[v].append(k)
print('统计每个单词出现的位置：{}'.format(enlish_dict))


#orderdict简单应用
#单词从a-z进行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print('单词从a-z进行排序:\n{}'.format(order_english_dict))

文本分析 comm python

zluxingzhe

0 关注 0 粉丝 0 动态

相关推荐

Python文本预处理，试试BAT大佬总结的实用代码！

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。当拿到一个文本后，首先从文本正则化处理开始。如果文本中的数字与文本分析无关的话，那就删除这些数字。通常，正则化

wordmhg 2020-11-06

十大针对机器学习的文本注释工具与服务，你会选用哪个？

下面，我将和您一起探讨目前十大针对机器学习的文本注释工具与服务。您可以根据自己项目的实际情况，从中做出选择并试用。Tagtog是一款由波兰软件公司开发的工具，可用于自动化或手动注释文本。Tagtog既支持原生的PDF注释，又包含了可用于自动化文本注释的预训

lgblove 2020-10-23

一文搞懂文本识别、银行卡识别、通用卡证识别、身份证识别

可以看到华为HMS把机器学习服务分成了文本类、语言类、图片类、人脸人体类四大服务，后面新特性也在不断增加中，其中有一类是文本类服务，文本类服务里面又含了文本识别、文档识别、身份证识别、银行卡识别、通用卡证识别，这些子服务之间都有哪些差异和关联呢，可能很多小

playis 2020-06-10

matlab 读取txt文本，并分析数据

% Y=polyval;%计算拟合函数在x处的值。　　读取文本函数：[temp,lev] = textread;str = ‘E:\matlab\temp_data\‘;files = dir;

wanff0 2020-03-05

突破迁移学习局限！谷歌提出“T5”新NLP模型，多基准测试达SOTA

过去几年间，迁移学习给 NLP 领域带来了丰硕的成果，掀起了新一波的发展浪潮。迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒，之后又在2019年大显身手，推动了领域内多种新方法的发展，其中就包括XLNet、RoBER

yyhhlancelot 2020-02-25

Solr文本分析剖析【文本分析、分词器详解、自定义文本分析字段及分词器】

　　Solr文本分析消除了索引词项与用户搜索词项之间的语言差异，让用户在搜索buying a new house时能找到类似的内容，例如：purchasing a new home这样的文档。如果搭配恰当，文本分析就能允许用户使用自然语言进行搜索，而无需考

TyCoding 2020-01-08

linux学习12 bash的常见特性及文本查看命令实战

　　1、FHS，命令及bash命令历史。　　　　　　/bin，/sbin，/lib，/lib64，/etc. 　　　　　　/home，/root. 　　　　　　/media，/mnt. 　　　　　　/proc，/sys. 　　　　　　　　bin，sbin，

IsanaYashiro 2019-12-14

深度学习在商户挂牌语义理解的实践

为了维持POI数据的鲜度，高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂，多变，同时，名称制作工艺要求严格，通过人工来制作POI名称，需要花费大量的人力成本。因此，POI名称的自动生成就显得格外重要，而机器对商户挂牌的语义理解又是其中关键的一环

dxmkkk 2019-12-09

1.中文NLP的完整机器处理流程

首先我们通过一张图来了解 NLP 所包含的技术知识点，这张图从分析对象和分析内容两个不同的维度来进行表达.有机器学习相关经验的人都知道，中文自然语言处理的过程和机器学习过程大体一致，但又存在很多细节上的不同点，下面我们就来看看中文自然语言处理的基本过程有哪

小发猫 2019-12-02

地理文本处理技术在高德的演进(上)+

高德地图的搜索场景下，输入的是，地理相关的检索query，用户位置，App图面等信息，输出的是，用户想要的POI。如何能够更加精准地找到用户想要的POI，提高满意度，是评价搜索效果的最关键指标。一个搜索引擎通常可以拆分成query分析、召回、排序三个部分，

athrenzala 2019-11-27

Linux 之 awk文本分析工具

AWK是一种处理文本文件的语言，是一个强大的文本分析工具。命令行awk [-F field-separator] ‘commands‘ input-file. /bin/awk awk -f 脚本文件待处理文件

xiaohouye 2019-11-08

awk 入门——强大的文本分析工具

让我们开始使用它。awk 是用于 Unix 和类 Unix 系统的强大文本解析工具，但是由于它有可编程函数，因此你可以用它来执行常规解析任务，因此它也被视为一种编程语言。你可能不会使用 awk 开发下一个 GUI 应用，并且它可能不会代替你的默认脚本语言，

jiazhou 2019-11-06

NLP（十六）轻松上手文本分类

现阶段的文本分类模型频出，种类繁多，花样百变，既有机器学习中的朴素贝叶斯模型、SVM等，也有深度学习中的各种模型，比如经典的CNN, RNN，以及它们的变形，如CNN-LSTM，还有各种高大上的Attention模型。本文以kashgari-tf为例，它能

sunbrother 2019-09-05

Linux常用命令之文本分析（六）

sed是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向

hufanglei00 2014-01-22

程序员必知必会----linux常用命令之六【文本分析】

sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”，接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重

gongxucheng 2014-01-16

[转]关于notepad++用正则表达式查找文本汉字的分析

notepad++可以进行正则表达式查找，都不好用，有时候，一些个汉字“长”等就不认。研究发现，因为一般来自记事本或者其他地方的txt文档都是使用ansi格式保存的，应该要单字符查找，相对的，复制粘贴出来后，Notepad++默认是unicode的，因此，

gzgcz 2016-11-21

正则表达式中的“环视”及实际项目应用

环视结构不匹配任何字符，只匹配文本中的特定位置，这一点与单词分界符b、锚点^以及$相似，但是环视比它们更加通用，并且能够检测两侧文本。如果我们能把这种思路直接用到正则表达式中当然很好，可惜正则表达式一般都是从左向右工作的。不过变换下思路，逗号应该加在“左边

chenqiangdage 2019-06-30

用最新NLP库Flair做文本分类

它是一个建立在PyTorch之上的NLP框架。本文将介绍如何使用已有的和构建自定义的文本分类器。目前绝大多数最先进的方法都依赖于一种被称为文本嵌入的技术。它将文本转换成高维空间中的数值表示方式。它可以将文档、语句、单词、字符表示为这个高维空间中的一个向量。

yaohaishen 2019-06-30

精通正则表达式笔记--去除文本首尾的空白字符

s/^\s+|\s+$//g作者推荐第一种，并认为其它三个都是不正确的。下面以源字符串 'a' 为例,分析一下这几个正则表达式的匹配过程。)可回溯， . 匹配 a, 匹配成功s*，匹配 a 后面的位置$，匹配到结尾整个表达式匹配成功第三种：。) 分组中

ykf 2019-06-29

文本分析API，帮助开发者获取文档含义

对程序员来说，文本处理通常会带来混乱。代码需要精确，但文本可能有各种内容。过去几年中，多家公司，例如Alchemy和汤森路透均推出了基于自然语言处理和机器学习算法的服务，帮助开发者更方便地了解文档的含义。现在，Aylien也加入了这一行列，推出了自主的文本

智能的世界 2014-03-03

zluxingzhe

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号