V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  conhost  ›  全部回复第 2 页 / 共 3 页
回复总数  59
1  2  3  
2022 年 12 月 28 日
回复了 8675bc86 创建的主题 Apple Ventura 的 Mail 用不了
你的设置问题,黑果白果 Ventura 都在用,没有什么问题。
2022 年 12 月 13 日
回复了 fzdoudou 创建的主题 问与答 AirPods Pro 掉马桶里了,捡还是不捡
捡呀,反正都是自己的
2022 年 12 月 4 日
回复了 qdwang 创建的主题 OpenAI ChatGPT 还不是最可怕的
问题在于,他知道的东西可能给你的答案是准确的。他不知道的给你的答案也是让人看起来没有啥问题。关键问题还在于你都不知道他说的是对的还是错的。

所以,目前来看 ChatGPT 还是玩具,偶尔调笑一下没啥问题,要是用在生产环境,那就不知道可能会带来什么问题了。
2022 年 12 月 2 日
回复了 numberator 创建的主题 问与答 有人用艾玛拉语写过翻译软件吗?啥事三值逻辑?
“听说曾经有老外人用艾玛拉语作为中介语言来翻译他任意两种语言,换句话的先把 A 语言翻译成艾玛拉语,然後再翻译成 B 语言,而且这种算法的准确度是最高的。”

这句话需要给出具体文献。据我所知,这应该是没有具体文献支撑的。

你说的这种翻译方法是基于枢轴的零资源或低资源翻译。目前主要使用的中间语言是英语,主要原因就是相对于其他语种,到英语的翻译语料是最丰富的。

具体到现在的神经机器翻译,基于枢轴的多语言翻译最有名的应该是谷歌的 2017 年的论文《 Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation 》也是主要使用英语作为其中间语言的。目前并没有任何文献支撑使用艾玛拉语能达到最好的效果。

具体原因是:

最初的机器翻译是采用规则的翻译方法,这种方法需要人为的设计翻译规则,这种方法需要专家对两种语言的语法都非常熟悉,这个语言作为玻利维亚的官方语言,中央艾玛拉语使用者只有 2,227,642 人。而且机器翻译作为冷战的产物,最初的主要研究是针对俄语和英语的翻译的,应该不会专门针对这个语言研究。

而先前的统计机器翻译到现在的神经机器翻译作为基于数据驱动的翻译方法,都需要基于大量的语料对模型进行训练。基于其使用者人数,其应该是低资源的研究对象,而不是研究工具。
2022 年 11 月 4 日
回复了 ljinkai 创建的主题 推广 变现周刊#78:建立一个佣金网站,每月赚 4 万美元
你赚到 4 万美元了么?
2022 年 9 月 26 日
回复了 Taomanman 创建的主题 Surge 寻求有偿代写 surge 规则
楼上这些说这个说那个的,就是没有一个人说怎么写。
最简单的就是在 Proxy Group 定义 policy-path ,几个机场就你定义几个,然后在 Proxy 里面还可以加你自己搭建的节点,这样就可以只更新节点,不动其他配置
policy1 = select, policy-path=url, update-interval=0, tolerance=10
auto = url-test, policy1
2022 年 9 月 14 日
回复了 kerrspace 创建的主题 程序员 深度学习显卡选择(RTX A6000 和 RTX 3090)
@kerrspace 这个看你的需求了。如果要搞目前的大模型的话,当然首推更大内存的。但是虽然 3090 的计算速度不如 a6000 ,但是 a6000 也到不了 3090 的两倍,如果 24G 内存够的话,想要更快的话,还是推荐 3090 。此外,两张卡的话,你还可以一张用来调试,一张用来实验。colab 的话,就不用考虑了,pro 都只能分到 p100 ,pro+也只能分配到原来免费的 v100 。
2022 年 8 月 5 日
回复了 zxCoder 创建的主题 分享发现 感觉科研水论文就像鬼畜视频创作一样
恭喜你发现了科研界的流量密码
春困秋乏夏打盹,睡不醒的冬三月
@Richard14 改变的-1 维度是因为 lstm 是针对词进行处理的。至于三维向量的理解,你可以理解为第一位是是有多少条句子,然后每一条句子中有 20 个词,每个词的维度是 8 。
@conhost 如果你不理解长度的话,你可以使用 nn.LSTMCell(8,64),然后自己定义循环生成,结果也是一样的。
@Richard14 我不太理解的是你为什么会将 2 ,3 两个维度互换呢,20 是序列长度,也就是说一个序列单元要走 20 步到达结尾,如果你设置的 bacth_first=False 的话,你需要将 1 ,2 两个维度互换。总得来说,LSTM 是对每一个词进行处理。nn.LSTM(20,64)的意思是输入到 LSTM 的维度是 20 ,LSTM 的输出维度为 64 ,这里你设置应该是不对的。要么你把[32, 20, 8]经过一个线形变换,转换成[32, 20, 20],要么你设置 nn.LSTM(8 ,64)。
@Richard14 总体来说循环网络的结构确实比较抽象,在实际理解的时候内部递归结构需要展开来看,不能将其单单就理解为一个层。包括训练时候的梯度回传,也要按照 rnn 的时间步进行展开回传的。而 cnn 由于其参数共享的原因,各个窗口之间是完全并行的,因此你理解一个窗口的操作,就可以直接扩展到其他窗口。
具体需要看你做什么了,lstm 后面加一个 dense 已经是一个完整的网络结构了。其递归的结构可以提取到全部的输入信息。在文本方面的话,cnn 确实需要堆叠多层,这是因为 cnn 是提取的局部信息,想要获取到全部信息,只能通过堆叠间接扩大卷积核的大小,从而能覆盖到全部输入。
@Richard14 RNN ,CNN 等基础模型 torch 都使用 C++在内部实现了,不过你也可以使用 pytorch 自己按照公式实现,实现方式类似于你自己定义一个 nn.Module 。实际生产中要看具体任务是什么样的,根据资源跟延时的限制决定一层还是多层。Transformer 出来之后基本上 RNN 很少单独使用了,有一些做序列标注的会在 BERT 上面加一层 biRNN ,用来提取文本的前后依赖信息。目前一般来说,RNN 在 Transformer 上的使用都是来补充位置向量太弱的问题的。不过,在小样本上,RNN 的效果会好于 Transformer ,所以具体用什么还是要看使用场景。
torch vision 里面是设置好的模型,打印的是模型的结构,并不是具体到某一层是怎么搭建的。而 LSTM 是一个层,作用类似于 ResNet 中的 Conv2d 。而 ResNet 是一个网络,由多个层构成。现在你打印的是 LSTM 里面的参数名和参数的维度,不是模型结构。如果你是做 NLP 的话,可以使用 hugging face 的 transformers 库,里面是近几年 NLP 上预训练模型。
@missqso #2 破坏计算机信息系统罪了解一下。既然客户都不懂 IT 技术了,那就在代码里面加在线验证或者 license 的方式解决呗。不付款的话取消接入验证或者吊销 license
你这不就是想要个木马么?真的很刑
@FakerLeung 这个复制失败的 bug 不是都快十年了么,你才发现?
1  2  3  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4572 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 04:07 · PVG 12:07 · LAX 21:07 · JFK 00:07
♥ Do have faith in what you're doing.