陈果果
清华大学本科学位,约翰霍普金斯大学博士学位,主要研究方向是语音识别及关键词检索,师从语音识别开源工具Kaldi主要开发者Daniel Povey,以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google开发了Google的唤醒词Okay Google的原型,现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与开发语音识别开源工具Kaldi,以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI,专注于语音识别及自然语言处理,公司于2017年被百度收购,目前担任百度智能生活事业群组(SLG)主任架构师。
都家宇
本科毕业于大连理工大学,后于澳大利亚新南威尔士大学电子信息工程学院学习,取得信号处理专业硕士学位。研究生期间在导师 Julien Epps 指导下开始进行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部,以及阿里巴巴iDST、达摩院语音组,从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与 Kaldi 相关的工作有:Kaldi nnet1神经网络框架中 lstm 作者;发起并推动全球大规模的中文开源数据集语音项目AISHELL-1、AISHELL-2,已服务于清华大学、北京大学、南洋理工大学、哥伦比亚大学等近200所国内外高校的科研项目。
那兴宇
本科和博士均毕业于北京理工大学,主要研究方向是语音识别和语音合成。先后任职于中国科学院声学研究所和阿里巴巴机器人,从事语音识别模型训练系统和语音交互系统的开发。目前就职于微软,担任资深应用科学家,从事语音识别算法和技术架构的开发及业务支持工作。2015年开始在Kaldi开源项目中贡献代码,参与了nnet3和chain模型的开发工作,并维护其中若干示例及OpenSLR的中文语音识别模型。
张俊博
博士毕业于中国科学院声学研究所,师从颜永红研究员。在小米公司从零起主导构建了整套语音算法研究框架,包括语音识别、智能设备语音唤醒、声纹识别、语音增强、用于语音应用的神经网络部署,均达到了当时的先进水平,并发表顶会论文若干篇,为后续的语音研发工作建立了基础。近期上线了用于外语学习的发音质量评测引擎,并给Kaldi贡献了发音良好度评分的代码。
2 有用 wupeachfan 2022-04-02 21:02:40
介绍了一些重要的语音知识和设计思想,再早几年有这本书就好了
0 有用 无牙仔最乖了 2023-07-25 13:30:04 北京
不错不错,最近在搞 espnet,跑来看看。 列表表单,可以由索引➕管道的组合真的耳目一新,管道还能这样用,有趣。 ——————————————— 2023.07.25 espnet 不搞了,书也不看了。
0 有用 小菟 2020-05-11 13:50:43
真.实战,非常详细,只可惜自己当初Kaldi入门的时候还没有这样的书
0 有用 软件园的猪 2021-07-04 16:13:36
第一章科普了一些语音识别的知识,GMM、HMM之类。第二章kaldi编译安装过程。kaldi源码库里有docker镜像脚本,照着样子下载编译了一下,跑了一个sample。后面的章节还有声学建模、构图解码、深度学习,不看了,看不懂。
0 有用 传奇之后 2022-02-07 22:38:09
七八章没什么干货,其它章节收获蛮大 主要包括对语音识别初步原理和kaldi的脚步解读上。不过语音识别适合入门,深度不怎么够。还是wav2vec半监督框架更好,只需要最多10%标注数据就可以比肩kaldi,大大节省标注成本。