V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
mikewang
V2EX  ›  macOS

macOS 识别图片文字的效果是不是很好?

  •  
  •   mikewang · Dec 9, 2021 · 2695 views
    This topic created in 1601 days ago, the information mentioned may be changed or developed.

    试了一下 预览 app ,好像很多文字都能自动识别,只有一些复杂背景并且颜色反差比较小的才难以识别出来。
    是不是 Windows 就不行呢?
    鸿蒙呢?(狗头)


    Supplement 1  ·  Dec 9, 2021

    问题联动:/t/820234 [Python 识别图片文字的效果是不是很差?]

    14 replies    2021-12-11 21:23:21 +08:00
    zhouwb
        1
    zhouwb  
       Dec 9, 2021 via iPhone
    识别还行吧,不算特别好的,但也不差,关键是方便啊,预览能直接拷贝文字链接不要太爽,工作快捷了很多
    ynyounuo
        2
    ynyounuo  
       Dec 9, 2021
    比较出众的是多语言混排识别,我试过中英德语混排的照片是可以比较好的分别做出识别的

    目前中文识别还不支持 language correction 所以实际上效果是不如其他支持的印欧语系的语言的
    mikewang
        4
    mikewang  
    OP
       Dec 9, 2021
    #2 @ynyounuo 可能和中文的分词有难度,或者特殊用法比较多有关吧。有种感觉腾讯的 OCR 有纠错功能,因为它有时识别错误还能变成另一个词组,不是无意义的单字...

    #3 @AndyZhuAZ 笑死,不过官方还不支持日文吧。Google 了一下 https://s2.loli.net/2021/12/09/6lormCKL5hXZ3Af.png
    AndyZhuAZ
        5
    AndyZhuAZ  
       Dec 9, 2021
    @mikewang 但是它能识别出日文字形的汉字和の,我不理解
    YuiTH
        6
    YuiTH  
       Dec 10, 2021
    @AndyZhuAZ 一般来说,这种模型的语料都不会是“纯 X 文”的,就像英文语料里肯定会出现“Café”,中文语料里混入一些の也可以理解。
    具体来说,我们做自然语言生成都用到一个词表,词表是用这个语言的语料生成的,语料可能来源于 wiki 页面啊搜索引擎爬取什么的。看这个语言里面所有的字哪些出现在一起的可能性比较高,就会变成一个词。出现频率过低的字符可能会被扔掉,所以用中文词表可能就很难识别出奇奇怪怪的阿拉伯什么的。更别提语料里完全没见过的语言。
    虽然有多语言的模型,词表会相应的覆盖所有语言。但如果规定了语言,我们可能就会指定使用对应语言的词表模型来做 OCR ,效果更好一些。
    所以为什么能识别の,就是因为中文语料里の最常见,比其他假名都常见,词表里有这个字符,模型也学会了这个字符的造型。
    AyaFrost
        7
    AyaFrost  
       Dec 10, 2021
    原来不支持日文,上次提取了半天还以为姿势不对。
    最需要的就是群友发日文 meme 图的时候提取出来看看到底说的什么
    whusnoopy
        8
    whusnoopy  
       Dec 10, 2021
    跟联动帖一样,标题和立场设偏了

    不是 macOS 的文字识别有多强,是苹果的 OCR 技术有多强,并且在 iOS 15 和 macOS Monterey 上用系统原生应用自带了

    Windows 不确定现在系统自带原生应用识别如何,很久以前 OneNote 和 PowerPoint 就有相当可用的识别能力了

    歪楼联动下,https://techcommunity.microsoft.com/t5/azure-ai-blog/azure-text-to-speech-updates-at-build-2021/ba-p/2382981 这个 TTS 语音输出能力,该算微软的,还是 Azure 的,还是 Windows 或者谁的?
    xing7673
        9
    xing7673  
       Dec 10, 2021 via iPhone
    @whusnoopy 等 edge 出一个我就认同你这段话。现在微软算法强但是系统集成太慢了。
    agagega
        10
    agagega  
       Dec 10, 2021
    为啥我预览里没法 OCR ,要浏览器里打开图片才行
    liw2756
        11
    liw2756  
       Dec 10, 2021 via iPhone
    一般般,看人品,有的时候网页截图都有部分识别不出来
    westtide
        12
    westtide  
       Dec 11, 2021
    楼主考哪里啊
    mikewang
        13
    mikewang  
    OP
       Dec 11, 2021
    #6 @YuiTH 解释得很专业!
    #10 @agagega 预览的菜单栏中要选择[工具] - [文本选择],要 OCR 的话
    #12 @westtide 南京某高校,这不是重点...
    YuiTH
        14
    YuiTH  
       Dec 11, 2021
    @whusnoopy 微软 Windows 和 Azure 不是一个 BG ,这篇文章是 Azure AI 的 Blog 的,应该和 Windows 关系不大。至于背后模型,有可能是 Azure AI 自己的团队做的,也可能是和 MSR 的联合作品。总之肯定是微软的。

    @mikewang 这毕竟是我过去一年的本职工作: ) NLP 的入门门槛确实比 CV 要高一些,在送入模型以前有各种奇奇怪怪的预处理。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   996 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 21:56 · PVG 05:56 · LAX 14:56 · JFK 17:56
    ♥ Do have faith in what you're doing.