你与数据科学家只差这 26 条 Python 技巧

 你与数据科学家只差这 26 条 Python 技巧

Python是目前世界上最流行的编程语言之一。因为:

1.它容易学习

2.它用途超广

3.它有非常多的开源支持(大量的模块和库)

作者 Peter Gleeson 是一名数据科学家,日常工作几乎离不python。一路走来,他积累了不少有用的技巧和tips,现在就将这些技巧分享给大家。这些技巧将根据其首字母按A-Z的顺序进行展示。

ALL OR ANY

Python之所以成为这么一门受欢迎的语言一个原因是它的可读性和表达能力非常强。Python也因此经常被调侃为“可执行的伪代码”。不信你看:

x = [True, True, False] 


if any(x): 


    print("At least one True") 


if all(x): 


    print("Not one False") 


if any(x) and not all(x): 


    print("At least one True and one False") 

BASHPLOTIB

你想要在控制台绘图嘛?

$ pip install bashplotlib 

现在,你的控制台中就可以有图了

COLLECTIONS

Python有一些很棒的默认数据类型,但是有时候他们并不会像你所希望的那样发挥作用。 
幸运的是,Python 标准库提供了collection模块。它让你可以使用更为多样数据类型。

from collections import OrderedDict, Counter 


# Remembers the order the keys are added! 


x = OrderedDict(a=1, b=2, c=3) 


# Counts the frequency of each character 


y = Counter("Hello World!") 

DIR

面对一个Python对象,你是否曾想过可以直接看到其属性?你也许可以试试以下的代码:

>>> dir() 


>>> dir("Hello World") 


>>> dir(dir) 

这是运行Python的时候一个非常有用的功能,用于动态探索你所使用的对象和模块。更多详情,可以查看这里:https://docs.python.org/3/library/functions.html#dir

EMOGI

对的,你没看错! 你与数据科学家只差这 26 条 Python 技巧

$ pip install emoji 

用python来创建表情包,你也可以。

from emoji import emojize 


print(emojize(":thumbs_up:")) 

:+1:

FROM_GUTURE_IMPORT

Python非常受欢迎,这也就导致了它的版本更新非常快,新的版本往往会有很多新特性。你不更新,就无法使用。

然而,不要害怕。__future__ 模块可以让你导入未来版本的功能。有点像时空穿梭有木有!

from __future__ import print_function 


print("Hello World!") 

GEOPY

对于程序猿来说地理可能是一个非常有挑战性的领域。但是,geopy模块则让它变得非常简单。

$ pip install geopy 

它通过提取一系列不同地理编码服务的api来工作,让你能够获得一个地方的完整街道地址、纬度、经度,甚至海拔。

这里面同时还包含一个有用的“距离”类别。它能使用你选定的度量去计算了两个地点之间的距离。

from geopy import GoogleV3 


place = "221b Baker Street, London" 


location = GoogleV3().geocode(place) 


print(location.address) 


print(location.location) 

HOWDOI

有时候你碰到了一个编程问题,觉得自己之前明明见过它的解决方法,但是却记不起来具体是怎么样的了。于是你想要去StackOverflow上找,但又不想离开这个终端。这个时候,你需要下面这个工具——howdoi

$ pip install howdoi 

你所遇到的任何问题都可以问它,它会尽他所能给你返回一个答案。

$ howdoi vertical align css 


$ howdoi for loop in java 


$ howdoi undo commits in git 

需要注意的是——它只从StackOverflow最顶端的答案中抓取代码。所以它给你返回的不总是最有用的信息...

$ howdoi exit vim 

INSPECT

Python的inspect模块用于收集Python对象的信息,可以获取类或函数的参数的信息,源码,解析堆栈等等

下方的代码样例使用了 inspect.getsource() 来打印它自身的源码。同样还使用了 inspect.getmodule()来打印定义了inspect.getmodule()的模块。最后一行代码则是打印了本行代码所在的行号。在本例中,就是 4 。

import inspect 


print(inspect.getsource(inspect.getsource)) 


print(inspect.getmodule(inspect.getmodule)) 


print(inspect.currentframe().f_lineno) 

inspect模块可以有效地让你知道你的代码是如何工作的,你也可以利用它来完成一些个人的源码。

JEDI

Jedi库是一个代码自动补齐和静态分析的库。它可以使你更快更高效地书写代码。 
除非你在开发自己的编辑器,否则你可能会非常喜欢将Jedi作为自己的编辑插件。

你可能已经正在使用Jedi而只是没发现。IPython项目就是利用Jedi来实现其自动补全功能。

**KWARGS

无论你学习那种语言,在这条学习之路上总有那么一些里程碑。在Python的编程学习中,理解神秘的**kwargs语法应该算是一个重要的里程碑。

双星“**”放在字典的前面可以让你将字典的内容作为命名参数传递给函数。字典的键是参数的名字,键的值作为参数的值传递给函数。如下所示:

dictionary = {"a": 1, "b": 2} 


def someFunction(a, b): 


    print(a + b) 


    return 


# these do the same thing: 


someFunction(**dictionary) 


someFunction(a=1, b=2) 

当你想要创建一个函数,它需要能处理事先没有定义过的参数,那么就要用到前面提到的技巧了。 

LIST COMPREHENSIONS

List comprehensions(列表推导式)

列表推导式可以说是我最喜欢的Python技巧之一。这种表达式可以让你写出像自然语言一样易于理解并且还很简洁的代码。

你可以通过这个链接了解更多关于列表推导式的用法。地址:https://www.learnpython.org/en/List_Comprehensions

numbers = [1,2,3,4,5,6,7] 


evens = [x for x in numbers if x % 2 is 0] 


odds = [y for y in numbers if y not in evens] 


cities = ['London', 'Dublin', 'Oslo'] 


def visit(city): 


    print("Welcome to "+city) 


for city in cities: 


    visit(city) 

MAP

Python有许多非常有用的内置函数。其中一个就是map()——特别是和lambda函数相结合的时候。

x = [1, 2, 3] 


y = map(lambda x : x + 1 , x) 


# prints out [2,3,4] 


print(list(y)) 

在这个例子中,map()对x中的每一个元素都应用了一个简单的lambda函数。它会返回一个map对象,这个对象可以被转化成可迭代对象,如列表或者元组。

NEWSPAPER3K

newspaper3k,如果你还没有见过它,那么你可能会被这个Python newspaper模块所惊艳到。 
它可以让你检索到一系列国际领先出版物中的新闻和相关的元数据。你可以检索图片、文本和作者名。它甚至有一些内置的自然语言处理功能。所以,如果你正在考虑使用BeautifulSoup 或其他自制的爬虫库来应用于你的下一个项目。那么,省省时间和精力吧,你其实只需要$ pip install newspaper3k。

OPERATOR OVERLOADING(操作符重载)

Python支持操作符重载。“操作符重载”其实是个简单的概念,你是否曾经想过为什么Python可以让你使用“+”操作符来同时实现加法和连接字符串?这就是操作符重载在发挥作用。

你可以定义使用Python标准操作符符号的对象,这可以让你在特定的环境中使用特定的对象,就像下方的例子一样。

class Thing: 


    def __init__(self, value): 


        self.__value = value 


    def __gt__(self, other): 


        return self.__value > other.__value 


    def __lt__(self, other): 


        return self.__value < other.__value 


something = Thing(100) 


nothing = Thing(0) 


# True 


something > nothing 


# False 


something < nothing 


# Error 


something + nothing 

PPRINT

Python的默认print函数可以满足日常的输出任务,但如果要打印更大的、嵌套式的对象,那么使用默认的print函数打印出来的内容会很丑陋。

这个时候我们就需要pprint了,它可以让复杂的结构型对象以可读性更强的格式显示。这对于经常要面对非普通数据结构的Python开发者来说是必不可少的工具。

import requests 


import pprint 


url = 'https://randomuser.me/api/?results=1' 


users = requests.get(url).json() 


pprint.pprint(users) 

QUEUE(队列)

Python支持多线程,它是通过标准库中的Queue模块来实现的。这个模块可以让你实现队列数据结构。这种数据结构可以让你根据特定的规则添加和检索条目。

“先进先出”(FIFO)队列可以让你按照添加对象的顺序来检索他们。“后进先出”(LIFO)队列可以让你首先访问最近添加的对象。最后,优先队列可以让你根据他们排序的顺序进行检索。

_REPR_

当你定义一个类的时候,提供一个方法可以返回用来表示该类对象的可打印字符串会非常有用。例如:

>>> file = open('file.txt', 'r') 


>>> print(file) 


<open file 'file.txt', mode 'r' at 0x10d30aaf0> 

这使得debug更加方便,具体的定义方式如下:

class someClass: 


    def __repr__(self): 


        return "<some description here>" 


someInstance = someClass() 


# prints <some description here> 


print(someInstance) 

SH

sh库让你像调用方法那样调用系统中的命令。

import sh 


sh.pwd() 


sh.mkdir('new_folder') 


sh.touch('new_file.txt') 


sh.whoami() 


sh.echo('This is great!') 

TYPE HINT(类型提示)

Python是一种动态类型语言。当你定义变量、函数、类别的时候,你不需要指定数据的类型。这可以大大提升你的开发速度,但也是有代价的。你可能会因为一个简单的输入问题而导致运行出错。

在Python3.5之后,这就不是问题了,在定义函数的时候你可以自主选择要不要提供类型提示。

def addTwo(x : Int) -> Int: 


    return x + 2 

你还可以定义类型的别名:

from typing import List 


Vector = List[float] 


Matrix = List[Vector] 


def addMatrix(a : Matrix, b : Matrix) -> Matrix: 


  result = [] 


  for i,row in enumerate(a): 


    result_row =[] 


    for j, col in enumerate(row): 


      result_row += [a[i][j] + b[i][j]] 


    result += [result_row] 


  return result 


x = [[1.0, 0.0], [0.0, 1.0]] 


y = [[2.0, 1.0], [0.0, -2.0]] 


z = addMatrix(x, y) 

虽然不是强制性的,类型注释可以让你的代码理解起来更加简单。它们也允许你使用类型检测工具在运行之前捕获这些零散的类型错误。如果你正在从事大型、复杂的项目,那么类型注释也许会非常有帮助 

UUID

通过Python标准库中的uuid模块,可以快速并简单地生成统一的唯一ID(又称UUID).

import uuid 


user_id = uuid.uuid4() 


print(user_id) 

UUID是128位的全局唯一标识符,通常由32字节的字符串表示。它可以保证时间和空间的唯一性,也称为GUID,全称为:UUID —— Universally Unique IDentifier,Python 中叫 UUID。它通过MAC地址、时间戳、命名空间、随机数、伪随机数来保证生成ID的唯一性。

VRITUAL ENVIRONMENTS

这可能是我最喜欢的Python技巧了。你可能经常要处理不止一个Python项目,不幸的是,有时候不同项目会依赖不同的Python版本。这个时候,你应该在系统里安装哪个Python版本呢?

幸运的是,Python可以支持建立不同的虚拟环境来满足不同的版本需求。

python -m venv my-project 


source my-project/bin/activate 


pip install all-the-modules  

现在你可以在一台机器上安装和运行各个独立版本的Python。太棒了!

WIKIPEDIA

Wikipedia有一个很棒的API,它可以让用户通过编程访问到维基的词条内容。使用Python中的wikipedia模块可以让你以最便捷的方式访问该API。

import wikipedia 


result = wikipedia.page('freeCodeCamp') 


print(result.summary) 


for link in result.links: 


    print(link) 

与真实站点一样,该模块支持多种语言、页面消除歧义、随机页面检索,甚至还有donate()方法。

YAML

YAML是“YAML不是一种标记语言”的外语缩写。它是一个数据格式语言,是JSON的父集。和JSON不同的是,它可以存储更复杂的对象,并且可以引用自身的元素。你还可以写注释,这让YAML特别适合于书写配置文件。

PyYAML模块可以让你使用Python调用YAML。使用下列语句安装:

$ pip install pyyaml 

然后导入到项目中:

import yaml 

PyYAML 使你能够储存任何数据类型的Python对象,以及任何用户定义类的实例。

ZIP

最后一个技巧也非常酷。你是否曾想要让两个列表中的元素逐个映射,组合成字典?那么你应该使用zip。

keys = ['a', 'b', 'c'] 


vals = [1, 2, 3] 


zipped = dict(zip(keys, vals)) 

相关推荐