V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
fjhh
V2EX  ›  Python

求助验证码识别难题

  •  
  •   fjhh · Jul 2, 2017 · 5103 views
    This topic created in 3223 days ago, the information mentioned may be changed or developed.
    最近想实现这样一需求,全自动登录网站,获取某些内容,保存为 mht 格式文件,上传至 windows 共享文件夹。
    现已实现半自动登录,但需要用户手工输入验证码,想用程序实现全自动化。网上搜索各类代码,发现对于验证码的识别酷似难度极高,作为一个业余选手,颇感压力山大。
    求大家伙目测此验证码识别的难度如何?
    期待能给出 demo 的代码,万分感谢。
    也期待能给出一些提纲性的指引。
    验证码地址: https://www.cqccms.com.cn/workspace/Captcha.jpg
    Supplement 1  ·  Jul 3, 2017
    第二次更新:
    多谢各位朋友的热情解答。
    关于系统的正常登录,目前已能实现手工输入验证码,登录成功,利用 Cookie 进行内部网页的获取。
    也有考虑到,在某服务器上运行脚本,如每隔 15 分钟带 cookie 请求一下网站,保持 cookie 的永久有效。
    当技术不够时,确实有很多中转的办法来实现。

    只是,第一次接触到验证码的识别,还是很有兴趣和激情来了解这个广袤的世界。搜索到: http://www.yanyaozhen.com/archives/345/
    并利用其中的代码对图片进行灰度处理。

    现面临难题,如何对空心的验证码实现填充?
    13 replies    2017-07-05 12:17:14 +08:00
    h4x3rotab
        1
    h4x3rotab  
       Jul 2, 2017 via iPhone
    接入打码平台
    fiht
        3
    fiht  
       Jul 2, 2017
    这种空心的不怎么好搞..难度略高,Google 家的 tesseract 应该不能直接搞定。
    如果不能搞定的话自己处理就比较复杂了,这方面的博文有很多你可以自己去找一找。
    不行的话就直接买打码服务就好,量不大的话也花不了多少钱
    misaka19000
        4
    misaka19000  
       Jul 2, 2017
    多收集点验证码做训练数据,然后用机器学习来搞
    ivechan
        5
    ivechan  
       Jul 2, 2017
    验证码识别, 如何正确切割是很重要的, 一般来说, 如果能正确切割。 用现在深度学习算法, 像这一种弯曲度很低的验证码很容易达到可用的正确率。
    cdwyd
        6
    cdwyd  
       Jul 2, 2017 via Android
    放弃破解吧,接入打码平台
    eycfsjd
        7
    eycfsjd  
       Jul 2, 2017 via iPhone
    打码平台
    kylinking
        8
    kylinking  
       Jul 2, 2017 via iPhone
    安利一波自己实现的
    https://github.com/kylingit/Captcha_recognize

    验证码不是通用的,重要的是思路
    myself659
        9
    myself659  
       Jul 3, 2017
    @kylinking 思路不错,赞
    enenaaa
        10
    enenaaa  
       Jul 3, 2017
    这种还不算难。 比较好切割。
    用简单的卷积神经网络应该有能接受的准确度。
    chac88
        11
    chac88  
       Jul 3, 2017
    看了下,这种还算比较好处理,英文数字的倾斜程度都是一样的,噪点和干扰线也比较明显。
    二值化再比对下,当然了,连在一起的就不好玩了。
    量小的话可以买验证码 api
    或者你可以手动登录一次,记下 cookie,定时刷新以保证在线(固定过期时间的除外)
    nosilence
        12
    nosilence  
       Jul 3, 2017
    多刷几张验证码图片,你会发现这验证码很有特点。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3578 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 70ms · UTC 04:48 · PVG 12:48 · LAX 21:48 · JFK 00:48
    ♥ Do have faith in what you're doing.