利用百度AI OCR图片识别,Java实现PDF中的图片转换成文字
序言:我们在读一些PDF版书籍的时候,如果PDF中不是图片,做起读书笔记的还好;如果PDF中的是图片的话,根本无法编辑,做起笔记来,还是很痛苦的。我是遇到过了。我们搞技术的,当然得自己学着解决现在的痛点。
一. 现状
为了不重复造轮子,当然得看看现在市面上是否有已经实现过的,如果有,那自然是拿来即用。
首先,说说一些在线版的PDF图片转文字,对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数),超过了便要收费了。
第二,那就是WPS的PDF图片转文字了。别说大小限制了,直接是收费。
二. 方案实现
2.1 百度AI平台 获取AppID, API Key, Secret Key
该平台限制调用次数, 作为个人开发者来说,基本上是够用了。
Java SDK文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top
不清楚的,可以去看文档。
2.2 代码实现
逻辑思路: 读取PDF文件,然后读取PDF中包含的图片,将图片传给百度AI平台去进行识别,返回结果解析。
第一步:新建一个Demo的Maven工程
省略....(相信大家都会哈)
相关推荐
alanlonglong 2020-06-14
luoyouren 2019-10-29
Charliewolf 2019-10-22
我心飞翔之家 2019-04-01
Jasterwisdom 2019-07-01
LinBSoft 2019-07-01
nanqi 2019-06-28
我心飞翔之家 2019-05-04
castingAT 2018-09-04
alanlonglong 2019-04-22
羽化成蝶 2019-04-22
xiangfreedom 2017-09-21
稀土 2017-11-30
那年夏天 2019-06-30
WarGamesdc 2020-06-30
doomvsjing 2020-06-11
lybbb 2020-03-27
云之高水之远 2019-11-10