一直都在
不断前进和探索

关于神经网络(CNN)学习算法样本采集制作本地库的吐槽

最近看中文验证码的图片验证资料不少,吐槽一下.

 

图片训练
 前面有人16W样本标记的都是拼音,然后就没有然后了..
 自己想办法吧,采集样本手动标记.看了一篇别人的文章:

可以用于验证码的中文常用字大概3666个,每个字的训练大于等于50个,所以总共训练样本大概20万,其中80%用于训练集,20%用于测试集。

样本收集是一个非常麻烦和耗时的过程,需要手工标注结果,我这里利用手工打码平台收集,最便宜一个验证码要4分钱,可以大概算一下,光为了收集这么多样本就将近花费1万RMB,还有配置一个GTX1080的显卡大概6千RMB

  • 训练集:26万样本图片
  • 测试集:13万样本图片

我的个乖乖.光是看这数据都怪吓人的.
因为这边需求有所不同吧,打算直接请人打码50万应该差不多可以凑够样本了.
那么找平台打码价格是相当吓人滴,还是有办法降低成本吧,那就是找打码的根源..
差不多了有了足够的样本数相信识别率不会太低.记录到这里吧,等搞完再继续更新. ;D

赞(0)
未经允许不得转载:吟风博客 » 关于神经网络(CNN)学习算法样本采集制作本地库的吐槽
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

一个纯粹用来记录的博客

Url在线批量打开