怎么图片转文字 将图片中的文字提取出来

怎么将图片中的文字提取出来

文字识别(Optical Character Recognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式,以JSON格式返回识别结果。


文字识别使用前必读

文字识别以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率,API获取详情请参考《API参考》。

OCR还提供多种编程语言的SDK供您使用,SDK使用方法请参考《SDK参考》。


用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。

OCR服务需要用户通过调用API接口,将图片或扫描件中的文字识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。

图片转文字 功能介绍

  • 通用表格识别

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

  • 网络图片识别

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

  • 身份证识别

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

  • 驾驶证识别

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

  • 行驶证识别

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、档案编码等结构化信息,在暗光、过曝光、防伪标志干扰等异常条件下均可准确识别行驶证信息。

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号、车辆识别代号、发动机号码、注册日期、档案编码等结构化信息,在暗光、过曝光、防伪标志干扰等异常条件下均可准确识别行驶证信息。

  • 护照识别

    针对中国护照,可识别护照上的全部信息;针对其他国家护照,可根据两行国际标准化的机读码识别出6-7个关键字段信息,包括姓名、性别、出生日期、护照号码等。在暗光、过曝光、阴影等异常条件下均可准确识别护照信息。

    针对中国护照,可识别护照上的全部信息;针对其他国家护照,可根据两行国际标准化的机读码识别出6-7个关键字段信息,包括姓名、性别、出生日期、护照号码等。在暗光、过曝光、阴影等异常条件下均可准确识别护照信息。

  • 营业执照识别

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

  • 银行卡识别

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

  • 名片识别

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

OCR首次使用攻略

  • 如果您是首次使用OCR的用户,建议您学习并了解如下信息:

    功能介绍

    通过功能介绍章节的内容,了解OCR不同类别的文字识别功能,包括通用类文字识别证件类文字识别票据类文字识别

    入门使用

    OCR以开放API的方式提供给用户,您可以参考《快速入门》学习并使用OCR服务。

    使用方式

    如果您是一个开发工程师,熟悉代码编写,想要直接调用OCR服务,您可以参考《API参考》《SDK参考》获取详情。

    由浅入深学习

    您可以参考成长地图,由浅入深学习使用OCR。


    功能介绍

    通过功能介绍章节的内容,了解OCR不同类别的文字识别功能,包括通用类文字识别、证件类文字识别、票据类文字识别。

    入门使用

    OCR以开放API的方式提供给用户,您可以参考《快速入门》学习并使用OCR服务。

    使用方式

    如果您是一个开发工程师,熟悉代码编写,想要直接调用OCR服务,您可以参考《API参考》或《SDK参考》获取详情。

    由浅入深学习

    您可以参考成长地图,由浅入深学习使用OCR。

  • 如何开始使用OCR服务

    文字识别提供了Web化的服务管理平台,即管理控制台,以及基于HTTPS请求的API管理方式。

    您可以在管理控制台申请开通文字识别服务、查看服务的调用成功和失败次数。

    文字识别以开放API的方式提供给用户,用户可以将文字识别集成到第三方系统调用API。

    具体流程如下:

    1.申请服务

    用户可通过管理控制台申请服务,具体操作请参见文字识别API参考>申请服务。

    服务只需要开通一次即可,后面使用时无需再申请。


    2.获取请求认证

    调用OCR的API有如下两种认证方式,请任选其中一种进行认证鉴权。

    Token认证:通过Token认证调用请求,具体操作请参见文字识别API参考>认证鉴权>Token认证。

    AK/SK认证:通过AK/SK加密调用请求。AK/SK认证安全性更高,具体操作请参见文字识别API参考>认证鉴权>AK/SK认证。


    3.调用API

    OCR以API的方式提供服务,具体操作请参见《文字识别API参考》。


    4.查看服务使用信息

    用户可以在OCR控制台查看服务调用成功的次数。

    用户可以在云监控查看服务调用成功的次数和失败的次数等历史数据。

    文字识别提供了Web化的服务管理平台,即管理控制台,以及基于HTTPS请求的API管理方式。

    您可以在管理控制台申请开通文字识别服务、查看服务的调用成功和失败次数。

    文字识别以开放API的方式提供给用户,用户可以将文字识别集成到第三方系统调用API。

    具体流程如下:

    1.申请服务

    用户可通过管理控制台申请服务,具体操作请参见文字识别API参考>申请服务。

    服务只需要开通一次即可,后面使用时无需再申请。


    2.获取请求认证

    调用OCR的API有如下两种认证方式,请任选其中一种进行认证鉴权。

    Token认证:通过Token认证调用请求,具体操作请参见文字识别API参考>认证鉴权>Token认证。

    AK/SK认证:通过AK/SK加密调用请求。AK/SK认证安全性更高,具体操作请参见文字识别API参考>认证鉴权>AK/SK认证。


    3.调用API

    OCR以API的方式提供服务,具体操作请参见《文字识别API参考》。


    4.查看服务使用信息

    用户可以在OCR控制台查看服务调用成功的次数。

    用户可以在云监控查看服务调用成功的次数和失败的次数等历史数据。

  • 服务开通后,您可以根据以下介绍选择合适的使用方式:

    通过OCR体验馆在线调用OCR服务API。

    如果您没有开发基础,想快速体验OCR服务,OCR体验馆提供了在线网页调用方式,该方式无需编码,直接在网页上传图片,即可返回识别结果。


    通过华为云API Explorer在线调用OCR服务API。

    如果您是开发初学者,有代码编写基础,对HTTP请求与API调用有一定的了解,想快速体验OCR服务,该方式无需编码,只需要输入相关参数,即可调用API,体验服务应用效果。


    通过可视化工具(如curl、Postman)发送请求调用OCR服务API。

    如果您是开发工程师,熟悉代码编写,熟悉HTTP请求与API调用,您可以通过postman调用、调试API。使用方法请参见调用API实现身份证识别,视频指导请参见API使用指导视频


    通过软件开发工具包(SDK)调用OCR服务API。

    如果您是开发工程师,熟悉代码编写,OCR服务为您提供Java、Python、Node.js等版本的SDK,方便您快速集成。使用方法请参见调用SDK实现通用表格识别,视频指导请参见SDK使用指导视频

    通过OCR体验馆在线调用OCR服务API。

    如果您没有开发基础,想快速体验OCR服务,OCR体验馆提供了在线网页调用方式,该方式无需编码,直接在网页上传图片,即可返回识别结果。


    通过华为云API Explorer在线调用OCR服务API。

    如果您是开发初学者,有代码编写基础,对HTTP请求与API调用有一定的了解,想快速体验OCR服务,该方式无需编码,只需要输入相关参数,即可调用API,体验服务应用效果。


    通过可视化工具(如curl、Postman)发送请求调用OCR服务API。

    如果您是开发工程师,熟悉代码编写,熟悉HTTP请求与API调用,您可以通过postman调用、调试API。使用方法请参见调用API实现身份证识别,视频指导请参见API使用指导视频


    通过软件开发工具包(SDK)调用OCR服务API。

    如果您是开发工程师,熟悉代码编写,OCR服务为您提供Java、Python、Node.js等版本的SDK,方便您快速集成。使用方法请参见调用SDK实现通用表格识别,视频指导请参见SDK使用指导视频

如何开通图片转文字服务

1、进入文字识别官网主页,单击“立即使用”,进入文字识别控制台。

2、在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。

3、服务开通成功后,开通状态将显示为“已开通”。

说明:

  • OCR开通服务时,计费规则默认为“按需计费”,按需计费时,不使用OCR服务,则不收费。如果您购买了套餐包,套餐包扣减规则请参见计费说明,套餐包购买后暂不支持退款。
  • 如未开通服务,直接调用OCR API会提示ModelArts.4204报错。
  • 使用文字识别服务时,可以通过配置OBS访问权限搭配使用。服务只需要配置一次即可,后面使用时无需再次配置,详细信息请参见配置OBS访问权限章节。