什么是OCR文字识别

什么是OCR识别

文字识别(Optical Character Recognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式,以JSON格式返回识别结果。


OCR文字识别以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户使用Python、Java等编程语言调用OCR服务API将图片识别成文字,帮助用户采集关键数据,打造智能化业务系统,提升业务效率。

OCR文字识别功能介绍

  • OCR文字识别-通用表格识别

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

    提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。

  • OCR文字识别-网络图片识别

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

    自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。

  • OCR文字识别-智能分类识别

    自动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。

    自动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。

  • OCR文字识别-身份证识别

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

    自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。

  • OCR文字识别-驾驶证识别

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

    自动识别驾驶证正页与副页上的全部信息,自动提取出姓名、性别、领证日期、准驾车型、有效期限、档案编号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别驾驶证信息。

  • OCR文字识别-行驶证识别

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。

    自动识别行驶证正页与副页上的全部信息,自动提取出号牌号码、车辆类型、所有人、使用性质、品牌型号等结构化信息,在暗光、倾斜、过曝光、防伪标志干扰、阴影等异常条件下均可准确识别行驶证信息。

  • OCR文字识别-营业执照识别

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

    识别营业执照中的公司名称、注册号、法人代表、地址、注册资本、营业期限、经营范围等字段。 在暗光,倾斜、水印等异常条件下均可正常识别执照信息。

  • OCR文字识别-银行卡识别

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

    自动识别银行卡正面的信息,识别信息包括卡片类型(借记卡或信用卡)、银行卡卡号、有效日期、发卡行、持卡人姓名(限信用卡)。省去手动录入过程。

  • OCR文字识别-名片识别

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

    自动识别名片中的信息,识别信息包括姓名、职位头衔、公司、部门、联系方式、地址、邮箱、传真、邮编、公司网址等信息,并将识别结果返回给用户。

  • OCR文字识别-飞机行程单识别

    自动识别飞机行程单全部信息,一次扫描即可识别旅客姓名、身份证件号码、订单号、票价等全部信息。

    自动识别飞机行程单全部信息,一次扫描即可识别旅客姓名、身份证件号码、订单号、票价等全部信息。

  • OCR文字识别-定额发票识别

    自动识别定额发票的全部信息,一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。

    自动识别定额发票的全部信息,一次扫描即可识别发票号码、发票代码、地址、发票金额等全部信息。

  • OCR文字识别-火车票识别

    自动识别火车票的全部信息,一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。

    自动识别火车票的全部信息,一次扫描即可识别一张车票的ID、检票口信息、车次等全部信息。

  • OCR文字识别-增值税发票识别

    通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来,用于后续的进一步处理,节省大量的人工录入成本。

    通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来,用于后续的进一步处理,节省大量的人工录入成本。

  • OCR文字识别-出租车发票识别

    自动识别出租车发票的全部信息,一次扫描即可识别归属地区、发票代码、发票号码、电话(包括电话、监督电话)等全部信息。

    自动识别出租车发票的全部信息,一次扫描即可识别归属地区、发票代码、发票号码、电话(包括电话、监督电话)等全部信息。

  • OCR文字识别-车辆通行费发票识别

    自动识别车辆通行费发票的全部信息,一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

    自动识别车辆通行费发票的全部信息,一次扫描即可识别发票代码、发票号码、入口、出口、收费金额、收费员、车辆类型、日期、时间等主要信息。

OCR文字识别的计费模式

OCR文字识别的计费模式

  • OCR文字识别按需计费:

    默认计费方式,指按照API调用次数收费,按次进行结算。

  • OCR文字识别套餐包计费:

    • 相比“按需计费”具有更大折扣。

    • 套餐包有效期为1年,到期不会自动顺延,请在有效期内使用完。

    • 套餐包到期后或套餐包使用完后,如果没有及时续费或购买新的套餐包,系统将自动转为按需计费方式。

    • 套餐包费用为一次性支付,即刻生效,暂不支持指定日期生效。

    • 套餐包可叠加使用,如果您购买了多个套餐包,则套餐包的扣减规则如下:

    1)按照套餐包来源类型扣费,扣减优先级由高到低为:免费额度->套餐包计费->按需计费。

    2)按套餐包创建、生效、失效时间扣费。

    多个套餐包,创建时间相同时,优先抵扣先生效的。

    多个套餐包,生效时间相同时,优先抵扣先失效的。

    多个套餐包,失效时间相同时,优先抵扣先创建的。


    说明:

    1)按需计费时,调用区域(Region)需和开通时的区域保持一致,否则会提示”ModelArts.4204服务未开通”。例如,开通华北-北京四区域的身份证识别服务,调用该服务接口时应对应开通时的华北-北京四区域。

    2)套餐包计费时,调用区域(Region)需和购买时的区域保持一致, 套餐包不支持跨区调用,否则会出现额外的计费或欠费。

    3)可就近选择靠近您业务的区域,以便减少网络延迟,提高访问速度。不过,中国大陆各个区域间访问速度区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。

    4)OCR默认使用按需计费。您也可以根据您的实际情况购买套餐包,购买后对应区域的套餐将自动转为包年包月计费方式。如果超出当前已购买套餐包的额度,超出部分将自动转为按需计费。

展开内容
收起内容

OCR识别常见问题

OCR识别常见问题

  • 如何选择OCR文字识别套餐包的区域?

    不同的地域之间资源包不互通,每个地域需分别购买,请根据您的实际需求慎重选择。各服务所部署区域请参见终端节点。

    请先确定使用的服务与区域之后再购买相应区域的套餐包。

  • 购买套餐包后,为什么会出现额外的计费或欠费?

    套餐包额度已使用完:

    套餐包额度用完后,默认会转为按需计费,当账户中余额不足时,无法对当前产生费用进行扣费,就会导致欠费。


    套餐包额度未使用完:

    请登录费用中心检查套餐包的购买区域,与调用api的区域是否一致,套餐包不支持跨区调用。同时检查开通套餐包的API与实际调用的API是否一致。

  • OCR文字识别中,哪些算有效计费?

    1、OCR文字识别服务通过RestFul API调用,计费以Https请求返回的状态码为准,当返回状态码为2xx(如200/201)时,表示调用成功并进行扣费。

    2、OCR文字识别服务通过套餐包计费方式,来降低调用成本,从绝大部分客户的使用来看,客户上传错误样本导致计费的占比非常非常小,几乎可忽略不计。

    3、在客户使用OCR能力,进行二次开发时,可以尽可能的通过页面可视化提醒等方式,引导使用者尽量拍摄符合人眼易于识别的图片,以保障数据质量提升同时识别准确率。

    4、由于图片的输入非常开放,因此为了避免恶意攻击,在公有云上对有效识别的信息(即便部分不准)也会计费,类似于在通话质量不佳时通常也是要求计费。


  • OCR文字识别服务支持批量识别吗?

    OCR文字识别服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。

  • OCR文字识别服务的识别结果可以转化为Word、TXT、pdf吗?

    OCR文字识别服务提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。

  • 调用OCR文字识别服务的区域可以与OBS资源的区域不一致吗?

    不支持跨区域OBS,OBS的区域需要和调用服务区域保持一致。

    对于开启公共读授权的OBS资源公网可访问,可支持跨区域调用,虽然使用比较方便,但若对于敏感的信息,例如个人的私有数据,存在泄露风险。建议您调用的文字识别服务和OBS服务是在同一个区域。

  • OCR文字识别服务提供哪些版本的SDK?

    目前OCR文字识别提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。

    如果想用其他编程语言调用OCR API服务,可以使用Token鉴权方式,实现接口调用。具体请参考文字识别服务接口《API参考》手册,该手册详细介绍了如何调用API及各个API接口的详细参数信息。

  • 使用OCR文字识别服务需要的权限有哪些?

    1、使用OCR文字识别服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。

    2、OCR文字识别服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。

  • 使用OCR文字识别服务,是否会保存用户数据?

    1、OCR文字识别服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。

    2、OCR文字识别服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。

    3、具体的声明请参考隐私政策声明法律声明,可信资源请参见白皮书资源。关于文字识别的相关声明请参见文字识别服务声明

  • 使用OCR文字识别服务是否必须使用华为云存储图片?

    OCR文字识别服务支持输入图片的base64编码或图片的url路径。

    如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。

    同时,您也可以不使用华为云存储,使用公网http/https url传入图片。