• 机器读心术之深度学习在自然语言处理中的应用

  • 人工智能前沿系列之生成式对抗网络

  • 机器读心术之文本挖掘与自然语言处理

  • R语言数据分析、展现与实例

  • JAVA极客特训

  • 深入浅出Git

  • 深入浅出Oracle

  • 实战Java高并发程序设计

深度学习到底有没有缺陷?

深度学习做不了什么?这值得我们列一个清单,把尝试过的失败总结出来,以更好地指导算法开发。对于输入数据的细微抖动,深度学习就会出现算法失效的情况。想象一下,当颜色互换时,目标识别系统的崩溃程度。基于梯度的学习相当缓慢,算法需要下降很多很多的梯度才能学会模式,用于高维预测则相当艰难。深度学习在处理约束条件方面表现很差。不同于线性规划,深度学习不容易找到能满足约束条件的解决方案。复杂模型的训练很不稳定。神经图灵机和生成式对抗网络训练起来很难,它们过于依赖随机函数的初始化。不像图形模型,深度网络不擅长跟真实世界建立联系,无法提取出因果模型。比如,要考虑关键...[详情]

共享相关任务表征,一文读懂深度神经网络多任务学习

在机器学习(ML)中,通常的关注点是对特定度量进行优化,度量有很多种,例如特定基准或商业 KPI 的分数。为了做到这一点,我们通常训练一个模型或模型组合来执行目标任务。然后,我们微调这些模型,直到模型的结果 ...

深度学习到底有没有缺陷?这里列满了它做不到的事情

深度学习做不了什么?这值得我们列一个清单,把尝试过的失败总结出来,以更好地指导算法开发。对于输入数据的细微抖动,深度学习就会出现算法失效的情况。想象一下,当颜色互换时,目标识别系统的崩溃程度。 基于梯 ...

美团如何用NLP完成5大应用场景

针对NLP技术,大神们刚刚展开过比较激烈的讨论——Yann Lecun论战Yova Goldberg,导火索是是一篇“对抗式生成自然语言的论文”。NLP大神Yova Goldberg认为该论文所生成的“自然语言”和真实语言相差太远,充满语法错 ...

原创翻译 | 12个数据可视化的提示

如果没人能够理解,这世界上最好的数据也比不上一堆豆子。 一个数据分析师的工作并不仅仅是采集和分析数据,他或她必须还能够向那些将会根据这些数据采取行动的各个兴趣相关方面以至最终用户展现这些数据。这就是 ...

深度学习初学者必读:张量究竟是什么?

近段时间以来,张量与新的机器学习工具(如 TensorFlow)是非常热门的话题,在那些寻求应用和学习机器学习的人看来更是如此。但是,当你回溯历史,你会发现一些基础但强大的、有用且可行的方法,它们也利用了张量的 ...

时下火热的wGAN将变革深度学习?这得从源头讲起

随着柯洁与AlphaGo结束以后,大家是不是对人工智能的底层奥秘越来越有兴趣?深度学习已经在图像分类、检测等诸多领域取得了突破性的成绩。但是它也存在一些问题。首先,它与传统的机器学习方法一样,通常假设训练数 ...

Google开源模块化多任务训练库T2T,最近重要论文的模型全在里面

深度学习推动了许多技术的快速发展,例如机器翻译、语音识别和对象检测。在科研领域,人们可以查找作者开源的代码,从而复现他们的研究成果,推动深度学习技术的进一步发展。然而,这些深度学习系统大部分都采用了独 ...

通过机器学习来自动调优 DBMS

数据库管理系统(DBMS)是任何数据密集应用的关键部分。它们可以处理大量数据和复杂的工作负载,但同时也难以管理,因为有成百上千个“旋钮”(即配置变量)控制着各种要素,比如要使用多少内存做缓存和写入磁盘的频 ...

强化学习族谱

强化学习是一类算法, 是让计算机实现从一开始什么都不懂, 脑袋里没有一点想法, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. 这就是一个完整的强化学习过程.

中国下一个十年的大趋势

真正要关注的,并不是这些大趋势本身,而是大趋势下那些与我们相关的次趋势,以及它们可能给我们带来的影响。 趋势一:互联和融合传感器和物联网将使世界完全互联。到2020年,平均每个用户将会有5个联网设备,平均每 ...

创新为缘何频频死在大公司的手里?

自从2012年创业以来,我看到了无数的创新产品和公司从默默无闻到赫赫有名,可是这其间我们却很少看到传统老牌劲旅的身影,按理说不缺钱,不缺人,不缺市场的大公司相比一些小公司在创新方面更有优势,为什么会出现如 ...

MySQL 字符转化以及乱码原因

MySQL 中存入数据时发生的编码转换过程:1、在终端 (Terminal,可以是 bash 窗口,也可以是客户端工具如 navicat) 中输入,输入的内容由 Terminal 根据其自己的字符进行编码。2、经 Terminal 编码后的二进制流被传输 ...

Linux 中内存 buffer 和 cache 的区别

细心的朋友会注意到,当你在linux下频繁存取文件后,物理内存会很快被用光,当程序结束后,内存不会被正常释放,而是一直作为caching.这个问题,貌似有不少人在问,不过都没有看到有什么很好解决的办法.那么我来谈谈这个问 ...

高并发性能调试经验分享

由于原生 nginx 使用本地 CPU 做 RSA 计算,ECDHE_RSA 算法的单核处理能力只有 400 qps 左右。前期测试时的并发性能很低,就算开了 24 核,性能也无法超过 1 万。核心功能在去年底就完成了开发,线下测试也没有发现 ...

理解 Linux 的平均负载和性能监控

在本文中,我们将解释 Linux 系统中最关键的管理任务之一——关于系统 / CPU 的负载load和平均负载Load average的性能监控。系统负载 / CPU 负载 – 衡量 Linux 系统的 CPU 过载或利用率低的指标,即处于运算状态或 ...

60 TB数据:Facebook 是如何大规模使用 Apache Spark 的

Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive 平台( Apache Hive 由 Faceb ...

Linux 系统下 init 进程的前世今生

Linux 系统中的 init 进程 (pid=1) 是除了 idle 进程 (pid=0,也就是 init_task) 之外另一个比较特殊的进程,它是 Linux 内核开始建立起进程概念时第一个通过 kernel_thread 产生的进程,其开始在内核态执行,然后通 ...

敏捷数据管理的12个技术原则

回顾整个数据平台的发展,在每一个阶段所有数据类应用都会或多或少的都会有数据质量的困扰,数据标准更是难以落地。数据管理由于难度大,涉及方面多逐步成为重要不紧急的事情。在海量复杂数据的场景下,如果没有有效 ...