羊肉泡馍与糖蒜
I train myself to train machines.

最近在研究Rasa Core的开源代码。Rasa Core是一个对话管理系统的训练和部署工具,承接Rasa NLU的实体和意图识别,成为一个任务导向型的构建聊天机器人的完整技术方案。 看到Rasa的工程师已经基本开发出一个很完整的对话引擎系统。数据定义、模型管理、对话序列的Keras序列训练等等都已经完成,只欠一个NLG的自然语言生成部分还是个空壳子。非常棒的是有一个Interactive...

Weighted Word Vector w.r.t TF-IDF This document introduces the method of calculating document vector by using weighted word vector w.r.t TF-IDF, with code in text2vec as example. The idea is that...

代码在 https://github.com/crownpku/text2vec 文本向量化,顾名思义就是将一段文字(一篇文章,一个段落或者是一个句子)变成一个向量。在尽可能不丢失原始文本信息的情况下,将文本变成可以计算的向量,可以帮助后续的文本聚类、分类、相似度匹配等等的诸多任务。 手头的一个小项目要对英文短文本进行20个标签左右的分类。标注数据量只有几千条,尝试了几种深度学习方法...

左脚脚踝忽然疼起来了。从一点点像是里面藏了只软鱼刺,到越来越痛,站立走路也不行了。 然而仍然是要上班。一瘸一拐走在湾仔天桥上,这才发现原来所有人都走得这么快!穿着正装的写字楼白领,身上仍有泥水的建筑工人,提着大箱子的游客,都步履匆匆紧跟着人流前进。而自己就像是急速流动的河水中间的一块巨石,不断被身边急速行走又步速颇为一致的人群侧身绕行超前。 想起来几天前,自己也是这人从溪水中的一员,...

Introduction I will mainly talk about the technical details of an open source project Chinese Annotator I’ve been working on and some thoughts around it. Before that, I’d like to emphasize the con...

深度学习,和所有机器学习算法一样,也有着bias-variance的平衡问题。Bias是指模型基于不准确的假设而给出了错误答案,通常由于under-fit产生,模型的表达力还不够强大;Variance指模型由于训练数据中的小扰动过于敏感产生的错误,通常由于over-fit产生,模型太过复杂而失去了训练集以外数据的泛化能力。 深度学习的模型发展到今天,神经元层数越来越深不见底,层间连接也...

这篇文章事先想好了一个逼格甚高的英文题目,Distributed Asynchronous Collaboration: For a Better World. 缘起是最近这半个月和几个非常棒的朋友们一起合作一个开源项目。半个多月以前我们还互不认识,因为一个中文文本标注工具的共同愿景和一个智能化主动学习算法的技术追求走在一起。项目最开始只有一个模糊的idea和一篇文章,到后来团队越来越壮大...

项目地址在https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深度学习的NLP模型更是数据饥渴。 最前沿的NLP技术往往首先针对英文语料。英文NLP的生态很好,针对不同有...

chatbot是这一两年最火的话题,是自然语言处理“王冠上的钻石”。chatbot本身是一个很难的问题,商业与技术上套路都貌似飘忽不定。这篇博客我们试图理清思路,简单聊聊垂直领域的主要是任务导向的客服性质的chatbot。至于开放的偏娱乐性的陪聊机器人,如小黄鸡和小冰等,严肃如我暂且略过不谈。 文章仅代表个人看法,学识和视野都有限,欢迎讨论欢迎拍砖。 确定要用chatbot? 在探讨技...

代码在 https://github.com/crownpku/Somiao-Pinyin 对于中文文本数据,我们每天都在为腾讯贡献着聊天记录,或者为百度贡献着搜索记录。而中文文本数据最大的入口,我觉得其实是搜狗输入法。这些年看上去,搜狗已经基本统治了中文输入法。PC,Mac,iPhone,安卓都装上了搜狗输入法,甚至码农朋友们装上ubuntu后的第一反应也是去装个linux版本的Soug...

代码在 https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF 上篇文章聊到了关系提取,今天来聊聊实体识别。 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。实体识别可以简单理解为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。因为同是序列标注...

代码在 https://github.com/crownpku/Information-Extraction-Chinese/tree/master/RE_BGRU_2ATT 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。 使用CNN或者双向RNN加Attention...

代码在 https://github.com/crownpku/rasa_nlu_chi 自然语言理解(NLU)系统是问答系统、聊天机器人等更高级应用的基石。基本的NLU工具,包括实体识别和意图识别两个任务。 已有的NLU工具,大多是以服务的方式,通过调用远程http的restful API来对目标语句进行解析完成上述两个任务。这样的工具有Google的API.ai, Microsoft...

总结了中文NLP相关的一些资料。 有问题或者补充请随时留言或者发issues到[github] awesome-chinese-nlp A curated list of resources for NLP (Natural Language Processing) for Chinese 中文自然语言处理相关资料 图片来自复旦大学邱锡鹏教授 Contents 列表 1. ...

代码在 https://github.com/crownpku/hk_ipo_prediction 香港股市常年位于全球新股集资三甲之列,每年都有上百只新股上市。与已上市的正股相比,新股的特点是没有任何历史交易数据,这使新股的feature比较朴素,使其可以变成一个较为简单的机器学习问题。 我们在这里,以练手为目的,用新股首日升幅的预测作为例子,介绍一个比较完整的机器学习流程。 所有的...

引言:一个不会同态加密、模型融合、区块链技术的机器学习竞赛网站不是一个好的对冲基金。 在计算机科学尤其是人工智能领域,开源是普遍的共识。Github上活跃着世界各地成千上万的程序员,每天都有如Google、Facebook或者个人开源出新的项目和新的数据。开源让信息彻底开放流通,带来的是人人为我我为人人的共享精神和人类技术飞速的发展。 诸如Kaggle的机器学习竞赛平台,是开源精神的...

代码在 https://github.com/crownpku/share_everything 万物共享 人类最早的分享,是岩洞壁上的牛马神蛇。我们的祖先从那么早开始就有交流分享的冲动。后来有了文字,有了印刷术,整个人类的集体智慧就喷涌了;自然界靠DNA变异进化数亿年的信息流,人类靠语言文字数百年就冲过去了。 然后有了互联网。Boom! 信息共享的同时,是物质的共享化。 你所在的...

本文一开始,我们先来讲几条优化算法的公式推导… 慢慢慢,开个玩笑,客官留步。 其实除去酷炫拽的人工智能技术的理论知识和编程技巧之外,人工智能正以非常接地气的方式影响着我们每个普通人的生活。我自己常常会在尝试某一个基于人工智能技术支持的新功能之后觉得非常Excited!我想把这些感动分享给大家,在这里就以Google的产品为例子,与大家讨论一下生活中的人工智能产品。 提到Google大家...

自从Google在搜索服务中加入了Knowledge Graph之后,知识图谱的概念就越来越火。谷歌是在用户搜索目标词汇时给出相关信息,比如搜索奥巴马的时候也给出奥巴马的年龄、身高、家人和相关搜索等等: 这次要聊的是企业关系的知识图谱工具。自从工商登记信息作为政府为了企业信息透明而被要求公开的信息之一可被在网上公开查询之后,很多聚合了企业相关信息的数据服务出现在网上。这里以小米为例子,...

Optimization methods play a critical role in machine learning algorithms. In this article we try to go through different gradient methods that are used for searching for the optimization value of a...

One of our projects is to make a low-cost 3D scanner using structured light. We were targeting the CIOE exhibition at Shenzhen in early September this year, and we managed to build up both in hardw...

一   关于我的这几年生活,我零零散散地写了不少文字,像是一个个贝壳。现在我想把它们串起来;我觉得我有资本得到一串链子了,无论它是否光鲜夺目。 在逃离高考而毕业未至的日子里,我做了很多平日看起来无比奢侈的事情,比如从太阳升起睡到太阳落下,比如意外地从父亲那里得到一个全新的moto e680i,比如骑着吱吱惨叫的自行车在城墙内外乱逛。做这些事情的时候心中会有轻微的不安,因为仅仅几个月前,...