网页验证码自动识别的编程思路

2011年2月20日 发表评论 阅读评论

最近在研究验证码,OCR识别处理还是有一定的难度,但是大致思路是一样的的:
1、图片处理,包括去背景,去杂点,去干扰,只留下有效的字符信息,然后再将其二值化,意思就是只有黑白色,如下图中的图像转换效果。

2、字符分拆,找到有效字符,交将它截取下来分别存放,如下图中的字符分拆效果。

3、入库并识别,建立一个公共的特征库,然后将分拆下来的字符进行比对,比对不通过的,则再通过程序学习入库以充实数据库。

4、以上的方法,字符变形的不适用,字符粘连的也不适用,但是,除去这几种情况,识别率保守来论一般在九成以上。


转载请注明来自:[闪电博客]http://shandian.biz/329.html

分类: 电脑知识 标签: ,
  1. 本文目前尚无任何评论.