震惊!当Python遇到Excel后,将开启你的认知虫洞
我相信看这篇文章的大多数人都是程序员。在广大程序员的眼里,Excel以及Office家族的其他成员完全不能与Python、Java、Sprint Boot这些技术相比。Office被贴上的标签就是:<非><专><业><人>员的工具。是由那些体制内的人、会计、业务人员使用的工具,其实这是对Excel的最大误解。
1. Excel,你为什么如此强大
Excel从一问世开始,定位就是横跨办公和开发两界。在上个世界末推出的Excel5.0(那时还没有office这个产品套件)就已经支持VBA了,那可是在Win32下(一种基于dos的shell,并不属于真正的操作系统)。尽管有些原始(以现在的眼光看),但在当时却显得极为先进。因为Excel(以及同期的Word)是人类史上第一个内置领域特定语言(DSL)的民用系统(可以被各个领域的人使用的系统)。正是因为有了VBA,Excel才显得非常强大。
可能有的程序员会问,即使Excel支持VBA,可以进行编程,也只不过是完成一些自动化操作而已。VBA的功能完全不能与Python、Java、C#、C++这些被广大程序员熟知的编程语言相比,更别说成为编程领域的主流了。没错,如果单凭VBA本身的确无法与这些流行的编程语言相比,但要知道,VBA和Excel本身可以与其他开发工具融合,也就是说,可以让VBA和Excel成为自己系统的一部分,这就显得非常牛逼了。
2. 软件开发也需要团队作战
那么为什么要将Excel与其他系统结合呢?其实在我们创业时、在公司完成一个项目时,甚至在参加篮球比赛时,都会高频率提到一个词:团队。 现在也流行着一句话:没有完美的个人,只有完美的团队。也就是说,没有人可以什么都会,什么都擅长,就算是天才达芬奇也是如此。但团队就不一样了,即使某项工作团队里没人能做,也可以扩充团队成员,吸引能做这项工作的人加入团队。
其实在开发软件的过程中也同样是讲究团队作战的。不管我们使用的开发工具有多强大,用户社区由多庞大,都无法规避一个事实:任何技术都不可能适合完成所有的工作。 当然,还有另外一种说法就是尽管某种技术可以完成某项工作,但并不是最好的选择。
现在回到Excel上来。首先要知道Excel擅长什么,对,没错,Excel擅长表格和图表的制作。尽管有非常多的开发工具也可以制作表格和图表,但很显然,Excel是其中最好的(主要用门槛、易用性、功能和用户基数的综合指标来衡量)。所以,如果某一个系统要求将数据转换为表格和图表,那么这项任务交给Excel来完成是再合适不过了。
3. Excel的集成方案演化
在不同的时期,Excel的集成方案也不尽相同。在Excel的大眼夹时代(那时还是Office97和Office2000的时代),微软与开源世界还水火不容,我也还处于学生时代。在那个时代,Excel只能与Windows下的开发工具融合,其中主要的开发工具包括微软的VC、VB、以及Borland(现在已经消失)的Delphi、C++ Builder等。
最初的集成方案有如下3种:
- 可视方式:通过OLE组件将Excel直接嵌入窗口中,其实就相当于拥有了一个高级版的表格编辑器
- VBA方式:通过ActiveX技术创建Excel.Applicaiton对象(一般是CreateObject函数),然后就可以任意调用VBA的API了,我比较喜欢这种方式。通过这种方式,可以将系统中的数据按着一定的格式直接传输到Excel中,给用户提交的是包含表格数据的Excel文档。
- 反客为主方式:这种方式将Excel作为主体。也就是说,主要的操作界面是Excel,在Excel中调用或访问其他系统。例如,很多年前我做过一个基于Excel的报表系统。该系统分别使用Delphi和Excel实现。Delphi做的管理系统,将数据发送给Excel。但需要用户自己调整报表格式。我采用的方案是通过Excel的VBA实现表格的格式设置。其中有部分功能需要访问SQL Server数据库,以及完成与Delphi实现的系统类似的功能,这部分功能使用了Delphi封装的Dll(COM组件),然后通过Excel反过来调用这些DLL。最终用户使用的方式是用主系统完成大部分工作。如果想调整Excel的报表样式,可以直接用Excel来完成(会在Excel上提供一些自定义的菜单和按钮,现在通过加载项【Add-ins】实现)
不过随着时间的推移,现在的微软已经拥抱开源和其他系统。所以Excel也不仅限于Windows。在macOS上也可以完成在Windows上的大多数工作,甚至Visual Studio也推出了macOS版本。而且.net core也可以同时跨Windows、macOS和Linux三个平台,SQL Server也开始支持Linux。以后我们会在更多的场景看到微软的身影。
既然Excel已经支持了macOS平台,就需要采用跨平台的方式与Excel集成。当然,前面介绍的几种方案现在仍然可用,但仅限于Windows平台。不过我们无法预测用户到底使用哪一个平台,所以应该尽量使用跨平台方案。
目前主要的跨平台方案有如下3种:
- 直接修改xlsx文件
- 通过VBA间接调用其他编程语言
- 使用office.js
第1中方式有很多编程语言都支持,例如,Python、Java、Julia、Go、JavaScript。几乎你能想到的编程语言,都有支持xlsx格式的库。这里只讨论Python。如果想了解更多关于集成Excel的技术,可以关注我的公众号:极客起源。
在Python语言中,支持Excel文件格式的库非常多,如非常著名的openpyxl、xlsxwriter等。通过这些库,可以在不依赖Excel环境的情况下,生成xlsx格式的文件。不过这些库基本是只是生成Excel文件,并不能更好地利用VBA以及更高级的功能。由于Excel文件格式非常复杂,完全支持比较困难,所以这些库只是支持一部分Excel的功能,但这些功能对于绝大多数需求已经足够了。
第2种其实是一种取巧的方式,通过VBA做桥,调用其他编程语言,相当于用其他编程语言代替了VBA。这其中典型的就是xlwings。尽管这种方式从表面上看可以直接在Excel中像使用VBA一样使用这些编程语言,但从本质上看仍然是直接写xlsx文件。功能其实与第1种方式相同,因为这并不是官方支持的功能。
第3种是office.js,这是微软官方提供的一个基于JavaScript的程序库。基于Node.js,可以用JavaScript完全取代VBA实现Excel以及Office其他成员的加载项。office.js可以在Electron、Web应用以及大多数基于JavaScript的场景中使用。关于office.js的内容我以后会写文章详细描述,对office.js感兴趣的同学也可以关注“极客起源”公众号,会不定期更新这方面的内容。
4. macOS特有的集成方案:applescript
除了跨平台解决方案外,在macOS上,还支持使用applescript与Office(Excel、World、PowerPoint等)交互,这些内容我以后再撰写文章详细讲解。如果要了解excel applescript api,可以参考Excel Reference。从效果来看,applescript操作Office与在Windows下通过COM组件操作Office类似,可以完全控制Office,只是applescript的语法更接近自然语言。
下面的applescript代码会创建一个新的Excel文档,并将其保存为first.xlsx文件。
运行后,会看到一个打开的Excel文档,并且已经保存为firstx.xlsx文件。
5. Python与Excel集成,有哪些好处
Excel对于Python来说,可以将Excel看做是一个可编程的大组件。这个组件的主要功能就是可以制作任意复杂的报表和图表。尽管Python有很多模块可以制作报表和图表。但这些模块的功能和效果完全没办法与Excel相比。所以将Python与Excel结合的最大好处是可以快速完成制作报表的任务,而且效果杠杠滴。
将Python与Excel相结合,其实还会引出另外一个思考,就是成为专家还是通才的问题。我听到有很多程序员说,要将某种语言搞通,如PHP、Python、Java等,然后就可以很轻松解决所有的问题。结果真是这样吗?
很久以前,我听过一个关于微软的故事(相信很多人也听过),在微软有一个几十人的团队,花了好几个月还没完成一个项目,听说是遇到了某些难题。这时有一个老程序员(据说至少50岁以上)将自己关在办公室里一个星期,搞定! 我们先不管这个故事是真是假,那么从理论上来说,是否有这个可能呢?其实如果光看编程速度,再牛叉的程序员,也不可能比普通程序员快几十倍,更何况数百倍了。但还有另外一种可能,就是这名老程序员使用了完全不同的方法,绕过了大多数影响效率的因素,例如,使用了不同的工具,采用了不同的转换方式,甚至使用了不同的设计理念等等。这就不是能力问题了,而是认知的问题。我将其称为“认知虫洞”。
所谓“认知虫洞”,是指通过某种方式很难完成某项工作,但通过另外完全不同,甚至是颠覆三观的方式,可以用极短的时间达到目的,而且效果极好。就像找到了可以穿越浩瀚星空的虫洞。这也有点像数学中的“等价替换”。
可能这个微软的例子离我们太远,下面举一个我自己的关于Excel例子,很多年前,我还在国内某大型软件公司作高级程序员。团队需要制作大量的报表,使用的主要开发工具是Delphi、后端是SQL Server数据库。Delphi本身有自己的报表系统,叫QuickReport。功能是很强大的,但问题是,做起来太费劲。例如,要画表格线时,如果一不小心将某根线拖到了别的地方,而且被其他东西覆盖,那你就找把,还必须要找到,否则打印出来的表格上就会莫名其妙多了根线。结果团队好几个人弄了好几天还没弄完(也包括我)。后来我实在不想这么弄了(因为买了几张影碟,着急回家看电影,不想加班),于是想到了利用Excel或Word来完成这个报表系统。通过Delphi传输数据。
说干就干,花了不到2个小时,所有的报表全部搞定(只有我一个人哦),几个人几天都没搞定的东西,我自己不到2个小时搞定,这当然不是我编程速度快了几十倍,而是处在了不同的维度,使用了完全不同的技术来实现,用QuickReport需要一根线一根线的画,而使用Excel,我不需要画线,只需要用SQL语句查询出数据,然后将这些数据发送给Excel即可。单单用了一个Excel,速度就提高了这么多,如果系统中很多部分都使用了类似的技术,那么编程效率提高数百倍,甚至上千倍,也不是没有可能的。
6. 了解多个技术领域,可以间接提高自己的IQ
可能有的同学会问,既然可以将多种技术结合起来大幅度提高开发效率,那么为什么不通过团队合作的方式来完成了,通常一个人无法学会那么多技术。其实这就是一个认知的问题,团队合作只有在项目所采用的技术被确定后,例如,如何集成多种技术,才可以发挥作用。问题是,如果多种知识分散在不同人的大脑中,很可能没有人意识到应该去这样融合多种技术,就更谈不上团队合作了,就像你要探索宇宙,首先你要知道存在宇宙这种东西,否则怎么去探索呢? 我将这种现象称为“认知孤岛”(相对于“认知虫洞”而言),就是说并不是没有能力去做,而是压根就没有意识到应该这样做(由于知识的缺乏、同时导致想象力的受限)。
为什么达芬奇那么牛逼,除了聪明之外,达芬奇还横跨多个完全不同的领域,正是因为对生物学和解刨学的了解,蒙娜丽莎的画像才会那么自然,栩栩如生,因为达芬奇对骨骼、肌肉的构造非常了解,这是其他任何画家都无法比肩的。如果你在某一个领域排名前20%,而在另外一个领域排名也是前20%,那么如果需要两个领域的知识来解决问题时,你就会排名前4%(20% * 20%),如果是3个领域就是百里挑一。如果是6个领域,那就是万里挑一,据说达芬奇涉足十多个领域。由于自己和自己沟通的成本为0,所以只有拥有足够多的知识,并且有融合他们的能力,那么你就是下一个达芬奇!
我们可以举个数学与Python的例子:
如果我们的程序需要计算某个表达式的定积分(例如y = 2 * x从0到1的定积分)。
假设我们使用的是Python语言,并且不太清楚有什么库可以自动计算定积分,那么采用的方式就是利用数值计算的方式写程序去完成,计算定积分的数值计算公式比较复杂,可能不是在短时间内能完成的。不过要是了解sympy这个库,那就是几行代码的事:
import sympy x = sympy.Symbol(‘x‘) f = 2 * x # 开始计算定积分 print(sympy.integrate(f,(x,0,1)))
是不是很简单呢? 只需要了解一个API的用法就搞定了。
假设现在我们还有一个需求,要计算某个函数在某一点的导数(导数在深度学习中经常使用),而手头又没有必要的库(也有可能是不知道),那么只要了解导数的原理,就很容易通过几行代码搞定,这就属于高等数学的范畴了。
导数原理,右侧是导数的计算公式,
# 计算导数的函数 def derivative(f,x): h = 0.0001 # x轴的增量,需要是一个很小的值,但要在浮点数精度范围内,通常不能超过小数点后6位 return (f(x + h) - f(x - h)) / (2 * h) # 待计算的函数1(y = 2 * x) def f1(x): return 2 * x import math # 待计算的函数2( y = sin(x) * cos(x) / (sin(x) + cos(x)) ) def f2(x): return math.sin(x) * math.cos(x) / (math.sin(x) + math.cos(x)) print(derivative(f1,10)) # 1.9999999999953388 print(derivative(f2,123)) # -0.331842825692652
PS:对这些代码和高等数学不熟悉也没关系,这里我只是举个例子,后期我会写一些关于数学和编程方面的文章,详细解释这些好玩的东西,可以关注我的公众号:极客起源 ,会不断更新各种技术和数学文章,以及视频课程。
从这两个案例可以看出,在某一个领域需要非常费劲才能搞出来的东西,在另一个领域其实就是hello world。如果了解足够多的领域,那么完成很多工作,就会表现出天才的特征(这也是成为天才的途径之一,另一个途径是投胎)。
PS:Excel的功能不仅仅是制作报表,Excel还拥有强大的数据分析能力。所以如果将Python与Excel集成,就意味着Python将拥有了Excel的全部能力,相当于Python拥有了Excel的整个生态。我将其称为“<生><态><渗><透>”。也就是通过集成或其他方式,一种技术可以直接或间接使用另外一种技术的全部或大部分资源。
7. 提高开发效率的利器:<生><态><渗><透>
在未来,支持<生><态><渗><透>的开发方式会非常普遍,如果只是用了一些现成的库或开源软件,并不能大幅度提高开发效率,但如果可以利用某些强大系统的生态,就不一样了。在未来,还会有很多支持“<生><态><渗><透>”的开发工具。例如,我们团队研发的UnityMarvel,就是一款超平台开发系统。这里之所以称为“超平台”,而不是“跨平台”,是因为UnityMarvel不仅仅可以跨操作系统平台,还可以跨数据库平台,云平台、API平台、开源硬件、物联网等,以及支持虚拟SQL、客户端服务端一体化、柔性热更新、Office加载项、浏览器插件等新特性。因此称为“超平台”开发系统。并且自己研发了Ori编程语言(语法融合了Python、Java、Go等语言的优秀特性,但功能得到了前所未有的增强)。通过这些特性,可以用前所未有的规模利用其他系统的生态,要远比Python使用Excel的生态更完美。其他功能先不解释(等发布后我再写文章详谈),先说说UnityMarvel是如何跨数据库的。
所谓跨数据库(目前指关系型数据, 以后会支持文档、键值等NoSQL数据库),是指用UnityMarvel开发基于数据库的应用并不需要事先确定到底用什么数据库(如MySQL、SQL Server、Oracle等),UnityMarvel内置了一种虚拟数据库,可以直接用虚拟数据库开发,在发布时,会要求选择使用的数据库,例如,选择MySQL或SQL Server。UnityMarvel会通过rosetta引擎将Ori语言的代码转换为支持MySQL的代码。关于数据库的部分,主要是用过内置的一种虚拟SQL完成的,而且这种SQL语言是与Ori语言是融为一体的。例如,如果要从persons表中查询出id大于30的所有记录,可以直接这样写:
var result = SELECT * FROM persons WHERE id > 30;
result的类型是SQLSelect,将result赋给Grid组件,就会直接显示查询结果。当发布时,会将上面的代码转换为使用相应数据库(如MySQL、SQL Server)的特定编程语言(如JavaScript、Java等)的代码。这么做的好处如下:
- 不需要进行数据库选型,数据库是在发布时后期绑定的;
- 如果想切换数据库(例如,从MySQL换成Oracle),只需要重新发布,选择相应的数据库就可以了,不需要修改一行代码;
- 统一数据库接口,开发人员并不需要了解各种数据库的细节,开发门槛低;
- UI与数据库交互非常容易,不必考虑各种数据库引擎和库,只需要直接将SQL语句赋给与其交互的UI组件即可;
- 自动检测和去除大多数SQL中的潜在风险,如SQL注入等;
- 脱离数据库环境开发。例如,想使用MySQL数据库开发,但当前机器上并没有MySQL开发环境,又不想安装MySQL。这时仍然可以用UnityMarvel内置的虚拟数据库进行开发,然后发布即可,部署在有MySQL环境的机器上就可以成功运行了;
8. 上代码:Python到底如何与Excel交互
在这一节玩点真格的,看一看Python到底如何与Excel交互。我们使用目前最常用的openpyxl来完成操作。先看一个未处理的Excel表格。
上面这个表格是关于营业计划的数据,看起来很别扭,因为不同层次的数据之间没有缩进,也没有背景颜色,甚至没有表格线。如果要将这个表格交给领导,估计领导会拿起块砖头砸过来!
领导最希望见到下面的表格:
这个表格看起来是不是很舒服呢!其实这个表格用Excel做起来也并不费劲。不过仍然需要N步,这里就不详细解释如何用Excel来做这个表格了,现在来看如何利用Python闪电般进行格式转换。
from openpyxl.styles import Alignment,Font,Border,Side,Color,PatternFill import openpyxl # 打开待转换的文件 workbook = openpyxl.load_workbook(‘原始表格.xlsx‘) ws = workbook.active table = ws[‘A1‘:‘D11‘] # 设置字体 ft = Font(name="黑体") for rows in table: for cell in rows: cell.font = ft # 调整行高(所有的行的高度统一设置为18) for i in range(1,ws.max_row + 1): ws.row_dimensions[i].height = 18.0 # 插入列 ws.insert_cols(1,1) # 调整新插入列的宽度 ws.column_dimensions[‘A‘].width = 5 # 插入行 ws.insert_rows(1,1) # 调整新插入行的高度 ws.row_dimensions[1].height = 10 # 文字左对齐,数字右对齐 leftAlign = Alignment(horizontal=‘left‘,vertical=‘center‘) rightAlign = Alignment(horizontal=‘right‘,vertical=‘center‘) for row in ws.rows: for cell in row: # 数字,右对齐 if type(cell.value) == int: cell.alignment = rightAlign else: cell.alignment = leftAlign # 调整列宽 ws.column_dimensions[‘B‘].width =20 ws.column_dimensions[‘C‘].width =9 ws.column_dimensions[‘D‘].width =9 ws.column_dimensions[‘E‘].width =9 ws.column_dimensions[‘F‘].width =4 # 让表格线出来一点 # 为表格添加边框 topBorder = Border(top=Side(border_style=‘thick‘,color=‘000000‘)) #bottom=Side(border_style=‘thick‘,color=‘000000‘), #horizontal = Side(border_style=‘thin‘,color=‘000000‘)) # 添加表格顶边的粗线(包括最后没有数据的列) for col in range(2, ws.max_column + 2): ws.cell(2, col).border = topBorder bottomBorder = Border(bottom=Side(border_style=‘thick‘,color=‘000000‘)) # 添加表格底边的粗线(包括最后没有数据的列),这里需要加1,是因为前面绘制表格顶边的粗线时,最大列的数量已经多了1个 # 所以只需要加1即可 for col in range(2, ws.max_column + 1): ws.cell(ws.max_row, col).border = bottomBorder # 添加水平细线 horizontalBorder = Border(top=Side(border_style=‘thin‘,color=‘000000‘)) for col in range(2, ws.max_column + 1): for row in range(4,ws.max_row): ws.cell(row, col).border = horizontalBorder # 单元格缩进 ws[‘B5‘].alignment=Alignment(indent=1) ws[‘B6‘].alignment=Alignment(indent=1) ws[‘B8‘].alignment=Alignment(indent=1) ws[‘B11‘].alignment=Alignment(indent=1) ws[‘B9‘].alignment=Alignment(indent=2) ws[‘B10‘].alignment=Alignment(indent=2) # 设置文字颜色 blueFont = Font(name="Arial",color = ‘4169E1‘) for col in range(3, ws.max_column + 1): ws.cell(5, col).font= blueFont ws.cell(6, col).font = blueFont ws.cell(9, col).font = blueFont ws.cell(10, col).font = blueFont # 设置背景色 fill = PatternFill("solid", fgColor="B0C4DE") for col in range(2, ws.max_column + 1): ws.cell(4, col).fill= fill ws.cell(7, col).fill = fill ws.cell(12, col).fill = fill workbook.save(‘转换后的表格.xlsx‘) print(‘见证奇迹的时刻‘)
现在运行程序,当输出“见证奇迹的时刻”后,就会在当前目录生成一个“转换后的表格.xlsx”,该文件就是上图的效果,是不是很神奇呢?
从这段程序中可以看出,转换该表格需要多少步,代码并不复杂,大家可以根据openpyxl的文档研究。
9. 用Python替代VBA
目前微软官方还没有将Python作为VBA的替代品,倒是将JavaScript作为了另外一个选择(office.js),不过可以利用xlwings做一个折中。xlwings可以单独使用,也可以通过xlwings office加载项提供的RunPython函数运行Python代码。
现在有一个hello.py文件,代码如下:
import xlwings as xw def hello_xlwings(): wb = xw.Book.caller() wb.sheets[0].range("A1").value = "Hello xlwings!"
在xlwings的安装目录有一个xlwings.xlam文件,该文件是Excel的加载项文件,也就是Excel VBA的发行包文件。现在随便开启一个空的Excel workbook,然后点击“工具”>“Excel加载项”菜单项,会打开如下图所示的对话框,找到xlwings.xlam文件,并选中该文件。
然后在“开发工具”选项卡中点击“Visual Basic”按钮(如下图所示),进入VBA编辑页面。
最后引用xlwings库即可。
现在可以新建一个VBA模块,然后编写下面的代码:
Sub test() RunPython ("import hello; myproject.hello_xlwings()") End Sub
运行脚本,就会看到在“A1”的位置插入了Hello xlwings!
OK,现在大家已经了解了如何使用Python与Excel交互,其他还有很多种方法,而且也不仅仅只有Python能与Excel交互,其实几乎所有的编程语言,甚至是C语言,都有想用的Library可以与Excel交互。那就期待我下面的文章吧!
再介绍下xlwings