2020年入门数据分析选择Python还是SQL？七个常用操作对比！

gallon00

2020-10-16

关注关注

SQL和Python几乎是当前数据分析师必须要了解的两门语言，它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作，希望可以帮助掌握其中一种语言的读者快速了解另一种方法!

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在阅读本文前，你可以访问下方网站下载本文使用的示例数据，并导入MySQL与pandas中，一边敲代码一边阅读!

https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv

一、选择

在SQL中，我们可以使用SELECT语句从表选择数据，结果被存储在一个结果表中，语法如下：

SELECT column_name,column_name 
FROM table_name;

如果不想显示全部的记录，可以使用TOP或LIMIT来限制行数。因此选择tips表中的部分列可以使用下面的语句

SELECT total_bill, tip, smoker, time 
FROM tips 
LIMIT 5;

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

而在pandas中，我们可以通过将列名列表传递给DataFrame来完成列选择

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在SQL中，进行选择的同时还可以进行计算，比如添加一列

SELECT *, tip/total_bill as tip_rate 
FROM tips 
LIMIT 5;

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在pandas中使用DataFrame.assign()同样可以完成这个操作

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

二、查找

1. 单条件查找

在SQL中，WHERE子句用于提取那些满足指定条件的记录，语法如下

SELECT column_name,column_name 
FROM table_name 
WHERE column_name operator value;

比如查找示例数据中time = dinner的记录

SELECT * 
FROM tips 
WHERE time = 'Dinner' 
LIMIT 5;

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

而在pandas中，按照条件进行查找则可以有多种形式，比如可以将含有True/False的Series对象传递给DataFrame，并返回所有带有True的行

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

2. 多条件查找

在SQL中，进行多条件查找可以使用AND/OR来完成

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在pandas中也有类似的操作

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

3. 查找空值

在pandas检查空值是使用notna()和isna()方法完成的。

frame[frame['col1'].notna()]

在SQL中可以使用IS NULL和IS NOT NULL完成

SELECT * 
FROM frame 
WHERE col2 IS NULL; 
 
SELECT * 
FROM frame 
WHERE col1 IS NOT NULL;

三、更新

在SQL中使用UPDATE

UPDATE tips 
SET tiptip = tip*2 
WHERE tip < 2;

而在pandas中则有多种方法，比如使用loc函数

tips.loc[tips['tip'] < 2, 'tip'] *= 2

四、删除

在SQL中使用DELETE

DELETE FROM tips 
WHERE tip > 9;

在pandas中，我们选择应保留的行，而不是删除它们

tipstips = tips.loc[tips['tip'] <= 9]

五、分组

在pandas中，使用groupby()方法实现分组。groupby()通常是指一个过程，在该过程中，我们希望将数据集分为几组，应用某些功能(通常是聚合)，然后将各组组合在一起。

常见的SQL操作是获取整个数据集中每个组中的记录数。例如，通过对性别进行分组查询

SELECT sex, count(*) 
FROM tips 
GROUP BY sex;

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

在pandas中的等价操作为

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

注意，在上面代码中，我们使用size()而不是count() 这是因为count()将函数应用于每一列，并返回每一列中非空记录的数量!

六、连接

在pandas可以使用join()或merge()进行连接，每种方法都有参数，可让指定要执行的联接类型(LEFT，RIGHT，INNER，FULL)或要联接的列。

现在让我们重新创建两组示例数据，分别用代码来演示不同的连接

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 
   ....:                     'value': np.random.randn(4)}) 
   ....:  
 
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'], 
   ....:                     'value': np.random.randn(4)})

1. 内连接

内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行，在SQL中实现内连接使用INNER JOIN

SELECT * 
FROM df1 
INNER JOIN df2 
  ON df1.key = df2.key;

在pandas中可以使用merge()

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

merge()提供了一些参数，可以将一个DataFrame的列与另一个DataFrame的索引连接在一起

数据分析 python 大数据编程语言 https text-align sql语言

gallon00

0 关注 0 粉丝 0 动态

关注关注

3000字！5大SQL数据清洗方法！

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体悉，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

茄肥猫的窝 2020-10-29

干货！做数据分析应该掌握的5个SQL数据清洗方法

日常工作中，分析师会接到一些专项分析的需求，首先会搜索脑中的分析体系，根据业务需求构建相应的分析模型，根据模型填充相应维度表，这些维度特征表能够被使用的前提是假设已经清洗干净了。前两天在Towards Data Science上看到一篇文章，讲的是用Pan

kkbb 2020-10-27

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

为了下个项目的质量！每个数据科学家都应该学会这两种工具

使用机器学习模型越久，就越能意识到，正确了解模型当下的运行目的及效果有多重要。在实践中，即便是在最佳情况下，跟踪模型的运行情况都十分繁琐。大多数情况下，我都会构建自己的工具来调试和分析机器学习模型。为了更好地利用时间和资源，我决定使用一系列可用的在线工具来

aiwozhiai 2020-10-06

阿里达摩院发布AI EARTH，全球首次实现多源对地观测数据分析

9月18日，2020云栖大会上，达摩院发布首个泛自然资源行业AI引擎AI EARTH，首次实现对天、空、地多源数据精准分析的能力，可清晰记录分析地球每一寸土地变化，大到山川植被湖泊面积变化、小到农作物生长情况，都能快速、精准分析。据介绍，AI EART

HashData0 2020-09-18

无需GPT-3！国外小哥徒手开发Text2Code，数据分析代码一键生成

近日，两个外国小哥Kartik Godawat 和 Deepak Rawat 开发了一个 Jupyter 插件Text2Code，可以将自然语言查询转换成相关的 Python 数据分析代码。如果能创建一个桌面软件，将自然语言直接转换成相关的 Python

GooTal 2020-09-16

会机器学习就够了？下一代数据科学家群体走向“全栈”！

数据科学一直是个引人注目的领域，尤其是对于那些有计算机科学、统计、业务分析、工程管理、物理、数学等学科背景的年轻人。但雾里看花始终看不清晰，人们总是认为数据科学背后有许多神秘的地方，觉得它不仅仅是机器学习和统计。除了研究助理和实习之外，没有任何全职行业经验

qiujiahao 2020-09-15

学Python就能做好数据分析？万能语言背后是一片韭菜地

在铺天盖地广告的洗脑下，让很多想要学习数据分析或者已经从事数据分析的人产生了这样的疑问：python真的很厉害吗?

Dimples 2020-09-15

低代码为AI降低准入门槛

多年来，主流开发人员一直在使用低代码方法来构建业务和消费者应用软件，这在很大程度上构成了AI界低代码方法的基础。据Veritone的产品高级副总裁Kfir Yeshayahu表示，这些低代码技术在AI界受到追捧。他说，近来对快速AI开发的需求日益增长，尤

qiujiahao 2020-09-11

Pandas这样来设置，做数据分析舒适百倍

在日常使用pandas的过程中，由于我们所分析的数据表规模、格式上的差异，使得同样的函数或方法作用在不同数据上的效果存在差异。而pandas有着自己的一套「参数设置系统」，可以帮助我们在遇到不同的数据时灵活调节从而达到最好的效果，本文就将介绍pandas中

wangquannuaa 2020-08-30

10 个加速Python数据分析的简单的小技巧

一些小的技巧在编程领域可能会非常有用，在数据科学领域同样如此。数据科学爱好者 Parul Pandey 在近日发表了一篇博文，分享了在数据科学中非常实用的 10 个小技巧。有时候，一点小小的黑客行为可以节省时间，挽救生命。一个小小的快捷方式或附加组件有时

逍遥友 2020-08-21

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

Python进行数据分析的核心库肯定是Pandas，该库差不多可以解决结构化数据的绝大部分处理需求。在《Python数据分析常用函数及参数详解，可以留着以备不时之需》一文中也已经对该库的常用函数进行了详细介绍。但是Pandas是构建在Numpy的基础之

CodeAsWind 2020-08-17

Python数据分析实战，小费数据集应用

本节选用的是Python的第三方库seaborn自带的数据集，该小费数据集为餐饮行业收集的数据，其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐

BMUranus 2020-08-16

超能力加持！用Python增强Excel的3大集成方法及用途

没有人能躲过Microsoft Excel ——你要不就很爱它，要不就是很讨厌它。也许在大学毕业之前，Excel只是考试周才会见几面的朋友，关系仅限脸熟。但当工作进入企业之后，你会发现假如Excel消失一个小时，整个世界就会停止运转!Excel几乎无所不

zlfing 2020-08-16

超能力加持！用Python增强Excel的3大集成方法及用途

本文转载自公众号“读芯术”。没有人能躲过Microsoft Excel ——你要不就很爱它，要不就是很讨厌它。也许在大学毕业之前，Excel只是考试周才会见几面的朋友，关系仅限脸熟。但当工作进入企业之后，你会发现假如Excel消失一个小时，整个世界就会停

wordmhg 2020-08-16

Python数据分析实战项目介绍

Python 语言是数据分析领域最常用的编程语言，因此本文将向大家介绍一个Python数据分析实战项目，学完这个项目大家可以使用 Pandas 进行数据准备、清洗、整理、计算与可视化，以及掌握最主流的数据可视化框架Seaborn和Echarts，并利用Bo

Cocainebai 2020-08-15

企业BI智能大屏，除了页面炫酷，还能带来什么？

当我们一谈到可视化大屏，超大画面、超强科技感、酷炫的呈现效果就会出现在我们的脑海中。所谓数据可视化，就是通过图表、图形、地图等视觉元素，将数据中所蕴含的信息的趋势、异常和模式展现出来。与传统报表相比，BI智能大屏可以让数据更加直观，便于快速接收分析。BI智

子昊的茶会 2020-08-04

Smartbi数据分析工具处理大数据性能如何？

Smartbi支持多种数据源轻松接入，基本涵盖了市面上所有主流的数据库。无可否认多元的数据连接能力使Smartbi能快速连接现有数据源，构建统一的数据分析平台。但在项目实施过程中，往往会遇到以下的问题：。数据库可能是分布在不同实例和不同的主机上，join关

天涯莺歌 2020-08-03

bi软件用来做什么？

商业智能又称商业智慧或商务智能，简称：BI，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。数据处理指的是在数据分析之前对数据进行清洗、转换、加载，简称ETL。

大数据技术 2020-07-27

安科网

2020年入门数据分析选择Python还是SQL？七个常用操作对比！

gallon00

gallon00

相关推荐

3000字！5大SQL数据清洗方法！

干货！做数据分析应该掌握的5个SQL数据清洗方法

为什么所有的机器学习模型有90％从没有投入生产

为了下个项目的质量！每个数据科学家都应该学会这两种工具

阿里达摩院发布AI EARTH，全球首次实现多源对地观测数据分析

无需GPT-3！国外小哥徒手开发Text2Code，数据分析代码一键生成

会机器学习就够了？下一代数据科学家群体走向“全栈”！

学Python就能做好数据分析？万能语言背后是一片韭菜地

低代码为AI降低准入门槛

Pandas这样来设置，做数据分析舒适百倍

10 个加速Python数据分析的简单的小技巧

推荐这块拖拉拽报表工具，超好用！

Python数据分析Numpy库常用函数详解，提到循环就该想到的库

Python数据分析实战，小费数据集应用

超能力加持！用Python增强Excel的3大集成方法及用途

超能力加持！用Python增强Excel的3大集成方法及用途

Python数据分析实战项目介绍

企业BI智能大屏，除了页面炫酷，还能带来什么？

Smartbi数据分析工具处理大数据性能如何？

bi软件用来做什么？

gallon00