有趣的开源软件:语音识别工具Kaldi (一)
技术文章 / 2018-02-01

Kaldi是一个非常强大的语音识别工具库,主要由Daniel Povey开发和维护。目前支持GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别的模型的训练和预测。其中DNN-HMM中的神经网络还可以由配置文件自定义,DNN、CNN、TDNN、LSTM以及Bidirectional-LSTM等神经网络结构均可支持。 目前在Github上这个项目依旧非常活跃,可以在 https://git…

横评:五款免费开源的语音识别工具
技术文章 / 2018-02-01

编者按:本文原作者 Cindi Thompson,美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士,数据科学咨询公司硅谷数据科学(Silicon Valley Data Science,SVDS)首席科学家,在机器学习、自然语言处理等领域具有丰富的学术研究和产业界从业经验。雷锋网(公众号:雷锋网)编译。 作为 SVDS 研究团队的成员,我们会经…

Kafka之数据存储
技术文章 / 2018-02-01

本文主要讲述以下两部分内容: kafka数据的存储方式; kafka如何通过offset查找message。 1.前言 写介绍kafka的几个重要概念(可以参考之前的博文Kafka的简单介绍): Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群; Topic:一类消息,例如page view日志、click日志等都可以以topic…

Kafka消息生成,消费,存储机制
技术文章 / 2018-02-01

原文:https://my.oschina.net/manmao/blog/847397 摘要: http://kafka.apache.org/documentation/#semantics 设计文档 http://kafka.apache.org/documentation/#design  Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zooke…

【干货】–基于Python的文本情感分类
技术文章 / 2018-01-29

前言 在上一期《【干货】–手把手教你完成文本情感分类》中我们使用了R语言对酒店评论数据做了情感分类,基于网友的需求,这里再使用Python做一下复现。关于步骤、理论部分这里就不再赘述了,感兴趣的可以前往上面提到的文章查看。下面给出Python的具体代码。 Python代码 # 导入第三包 import jieba from sklearn.feature_extraction.text…

入门十大Python机器学习算法(附代码)
技术文章 / 2018-01-29

今天,给大家推荐最常用的10种机器学习算法,它们几乎可以用在所有的数据问题上: 1、线性回归 线性回归通常用于根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。我们通过拟合最佳直线来建立自变量和因变量的关系。这条最佳直线叫做回归线,并且用 Y= a *X + b 这条线性等式来表示。 理解线性回归的最好办法是回顾一下童年。假设在不问对方体重的情况下,让一个五年级的孩子按体重从轻到重的顺序对班…

应用丨AI和机器学习如何改变美国政府决策方式
技术文章 / 2018-01-29

在每个联邦机构中,重要的见解都隐藏在多年来收集的大量数据集中。但是由于联邦政府数据科学家的短缺,从这些数据中提取价值是非常耗时的。然而,随着数据科学,人工智能(AI)和机器学习的进步,各机构现在可以使用先进的工具来转换信息分析和代理业务。 从预测恐怖威胁到检测税务欺诈,一种称为自动机器学习的新一类企业级工具,有能力通过预测建模来改变联邦决策的速度和准确性。像AI这样的技术正在改变联邦政府理解和决策…

链家大数据多维分析引擎实践
技术文章 / 2018-01-29

前言 大数据背景下,传统关系型多维分析 ROLAP 引擎遇到极大挑战,因而链家转向基于 Hadoop 生态的 MOLAP(Kylin)及 HOLAP (多引擎)。在架构师实践日北京站中,链家大数据集群架构组负责人邓钫元进行演讲,分享了链家在多维分析引擎方面的一些实践经验,主要从 OLAP 的背景和简介、链家多维分析架构演进和展望、OLAP 平台链路优化这三部分来介绍。 一、OLAP 的背景和简介&…

干货 :什么是数据科学?如何把数据变成产品?
技术文章 / 2018-01-25

本文转自:O’Reilly(www.oreilly.com.cn);作者:麦克.罗克德斯(Mike Loukides);   未来属于那些知道如何把数据变成产品的企业和个人。 –麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据…