Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

欢迎点击右上角关注小编,除了分享技术文章之外还有很多福利,私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

前言

从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们还担心四级不能过么?

基本开发环境

版本:Python3

系统:Windows

相关模块:csv、peewee、Counter等

程序介绍

  • 自动批量收集文件中的英语单词 txt (utf-8)
  • 统计排序保存到本地数据库 voca.db
  • 翻译英文得到中文解释
  • 数据库文件提取得到csv表格

主要目的

  • 成为考试必备词库
  • 希望大家都能轻松过四级

工作流程

  1. 配置查询文档
  2. 自动分析数据保存至voca.db数据库文件
  3. 自动打开数据库调用api翻译单词并保存到数据库里
  4. 将数据库文件转换成csv表格文件

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

具体实现

数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

读入文件拿到所有单词

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

剔除 常用单词(is am are do……)

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

计数

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

数据库初始化 peewee模块

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

加入单词到数据库

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

翻译

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

提取所有单词到csv

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

完整代码可以私信小编学习资料进群领取

翻译过程

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

出现次数最多的简单词

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

出现次数较少,值得一背的词

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

上述完整代码和获取到的统计结果(5000个高频词),关注小编后私信关键词 “学习资料” 即可进群 。

Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么

相关推荐