羊肉泡馍与糖蒜
I train myself to train machines.

在招聘数据科学岗位的时候,一个职位可能会有几百个求职者的简历投进来。因为数据科学本身定义的模糊性,我们会发现大量不相关或弱相关的简历掺杂其中。比如我们遇到过牙医 dentist 申请 data scientist 的职位,我们猜测可能只是因为读音略相似而求职者看错了title… 初步筛选这些简历是一项极其繁杂的体力活。 求人不如求己。于是我们组自己开发了一套基于自然语言处理的简历初筛选系统...

数据科学工作者常常需要构建关于数据和模型的可视化界面,使得分析结果更加直观,或者模型使用更加简易。日常工作中几种常见的数据分析可视化方法有: 直接在 Jupyter Notebook 中进行可视化 我们常常会直接在 Jupyter Notebook 之中使用 Matplotlib 或者 Seaborn 等优秀的 Python 软件包进行数据可视化。作为数据工作者这...

项目代码在:https://github.com/crownpku/Responsible-AI/tree/master/Evaluate_Model 博主相关系列文章: 初探工业界的公平性合规 机器学习模型的公平性评测 Algorithms Auditing:你的代码公平正义吗? 本文我们来讨论下如何使用谷歌的 What-If-Tool 可视化仪表盘来对机器学习模型进...

传统行业做数字转型,项目实施乃至组织架构的敏捷化转型是其中重要的一环。敏捷开发的流程主要来自软件开发,但同样适用于其它行业和应用的项目推进与实施。 微软作为“传统”软件行业巨头,近些年同样进行了敏捷文化的构建,成功在科技互联网巨头公司的激烈竞争中再次站稳脚跟。我们来看看微软是如何实践敏捷开发的一系列原则,将其应用在团队管理、人员职责、项目计划和工作流程中。 本文主要参考 Aaron Bj...

从之前的科技行业到现在的金融行业,我前前后后面试过上百个数据科学岗位的求职者;有些感想,也有些有意思的小事情,这里跟大家分享。 我面试的岗位一般社招占据了大多数,也意味着面试者往往已经有了几年的工作经验。 面试中我一般会先介绍我们组和我们公司的情况,然后简单介绍自己,包括自己的背景、经历、何时加入公司、平常工作主要在哪一些方面。无论如何有经验的人面试中都会紧张,所以先于求职者而为他们做自...

最近港股打新火热,本想把之前2017年发表过的一篇旧作翻出来修改一下重新蹭蹭热度: 港股新股首日升幅预测:一个简单的机器学习项目 在后台操作到最后推送一步的时候,微信公众号提示我内容与已有原创内容过于相似: 我的第一反应是估计微信把我之前发表过的文章拿出来查重了,但很奇怪因为17年的时候微信应该还没有推出原创保护之类的功能。于是我好奇点进去了“原创内容”的链接然后震惊了: 这...

你在铁轨上散步,一辆火车轰隆隆驶来,前面有玩耍的孩子;如果你无动于衷,火车会撞到前面十几个孩子,如果你扳动身边的扳手,火车会换轨撞到另一侧的三四个孩子。你会怎么做? 这是哈佛大学 Justice 课程第一节课上教授抛给学生的问题。 我们已经聊过几次从机器学习模型角度出发的公平正义性的问题,如: Algorithms Auditing:你的代码公平正义吗? 机器学习模型的公平性...

王尔古公众号现在已经集成GPT中文聊天功能! 感兴趣的朋友们请长按二维码关注 微信公众号“王尔古” (ID: erguwang),进入公众号后在下方的对话框进行聊天。 我们微信上见:)

自然语言处理界最近最火的一件事是 OpenAI 在2020年5月推出的 GPT-3。 GPT-3 有1750亿个参数,45TB 的训练数据,在微软提供的的Nvidia V100 GPU 集群中训练,仅算力换算为正常云计算计费就需要约1200万美元。 从 GPT-2 开始OpenAI 就拒绝开源其模型,理由是防止有恶意的开发者利用模型做出有害的应用;相反 OpenAI 为筛选之后的开发者提...

早上七点多准时被娃叫醒。洗漱,跑步,冲凉。早餐是南洋咖啡配面包火腿,看完早间新闻就开始一天的工作。 今天是我在家办公的第212天。 办公室只在年初去过一次,为了换电脑见过了HR和IT的同事,然后就是长达大半年的在家办公。其他同事到现在为止还停留在网友的阶段。 所幸我也并不是一个十分热衷于交际的人,宅在家里写代码带孩子,定时出去跑步和买菜;娃还没到上幼儿园的年纪,作为父母也刚好有了正常时...

人工智能在各行各业都产生了不小的价值,保险业也不例外。人工智能在保险业的全流程都有重要的作用,帮助保险业降低成本、创造价值,而这些保险业中的应用同时也在隐私保护、数据合规、模型解释性和公平性等方面向人工智能提出更高的要求和挑战。 笔者于瑞士再保险公司任职数据科学岗位,在此简单介绍保险的几个重要的场景,探讨人工智能如何在保险业价值链的不同部分产生价值。 下图是来源于瑞再研究院对2018年专...

2019年底的一个早上,我去大埔银行办事。车开到大埔中心就开始拥堵。路边有高中生身形的黑衣蒙面人在结对掘砖,川流不息的路人们有老人家也有抱着孩子的父母,匆匆经过低着头也绝不敢停留。路中间的隔栏已经全部被拆去做了某次示威的路障。十字路口交通灯被打烂失灵,双层大巴、绿色小巴和私家车挤作一团。好不容易从缝隙中穿行出来,已经比预定时间迟了一个小时。我匆匆穿过马路。 以前常来的银行已经看不到招牌,门...

在这个黑人牙膏要改名、护肤品也不敢标称自己美白效果的年代,机器学习也不能幸免于接受社会对其政治正确的审视。一个计算机视觉的去马赛克算法不慎将奥巴马转化成了一个白人面孔,引来网络上一片骂战,大神Yann Lecun都被骂退推特。 这个世界本身就充满了偏见和歧视,而基于真实数据构建的机器学习也不免引入了这样的不公平性。构建一个不公平的机器学习模型并不可怕,关键是如何评测和优化模型的公平性,...

spaCy 终于终于支持中文模型了 ​spaCy 是自然语言处理界有名的工业级别开源工具。最新更新的2.3版本中,在@howl-anderson 等码友的贡献努力下,spaCy 终于官方支持中文模型了。 spaCy 同时推出了官方中文的免费互动网课: 中文版课程针对中文 spaCy 模型特别定制,土味十足: 吃了吗您? 你会学习到的spaCy技能 抽取语言学特征...

2020年6月,微软公布了Windows Subsystem for Linux 2的最新更新,全面支持CUDA和N卡GPU。在Windows上跑Ubuntu子系统并在其中运行GPU加速的深度学习代码成为现实,开发者终于不用特意为了熟悉的Linux环境而在自己的开发机上安装Windows与Ubuntu的双系统(以及Windows10之后繁琐的boot manager调试设置过程),同时又可以...

Mask R-CNN是个好东西,Fine Tuning对数据量要求不多,Inference对资源要求也不高。 标注数据多了之后,模型应该可以自动识别不同车损的类别和程度以及相应的汽车配件。 Automatic Motor Damage Evaluation, using Mask R-CNN for pixel level segmentation, thanks to #tensorf...

昨天新加坡新增了386例新冠肺炎患者,是有史以来最多的一天。这情况实在让人忧心忡忡。有点慌之余,我做了一些简单的数据分析和比较,希望能平复一下自己的心情。 新加坡从今年4月7日开始实施禁足措施,除必要服务之外的所有商业和店家关门,不鼓励人民出门,只允许买菜和运动,而且去人多的地方一定要戴口罩。街头的运动场和休闲桌椅,小区的泳池健身房都一并封闭。类似的措施新西兰从3月26日开始实施,到现在从...

新冠病毒数据截止到2020年4月5日。 五大洲传播分析 分析仅供参考,很多因素会影响数据解读性,如检测能力和潜伏期等等。 每日新增病例 亚洲最早发生病例,受到控制之后最近因为输入病例及社群内部传播又有抬头。欧美情况不断恶化且并未到顶。非洲病例也在持续增加。 每日新增死亡病例 欧洲可能因为人口老化问题死亡病例非常多。美国情况不断恶化。亚洲平稳但势头有回复的迹象。 死亡率(...

Hi, Prof. Szeto. It still hurts after these few long days. You were sending me Whatsapp messages about some Indian food just last month and shared about the coronavirus situation. Sometimes I saw ...

在一家能从业务里源源不断产生数据的公司工作是一件很幸福的事情,但很多人如我就没有这样幸运。没有数据又想蹭住人工智能的风口,一种方法是潜心学术研究算法,但用来做实验的数据往往都是学术界或者一些好心的工业界提供的低配版数据,练就的屠龙刀倚天剑离实战还有很多距离;另一种方法就是费尽心机寻找真实数据。在聊(已经学不动的)各种神乎其技的算法之余,我也想简单总结下那些年我们写爬虫的经验。 甄选网站 ...

Introduction Named Entity Recognition, or NER, is a task where a model will try to recognize the named entities from the raw corpus. NER is usually considered as a sequence labelling task. With th...

Open source makes technology cheaper and better If you are a developer, you can’t really work around open source technologies. Your Operating System can be Linux. You can have MySQL or MongoDB as ...

Chatstack is a full pipeline UI for building Chinese NLU system. With Chatstack, developers don’t need to write any code to be able to build customized Chinese NLU modules including defining int...

开源让技术更好更便宜 现如今如果你是一名开发者,开源是你绝对绕不开的部分。你的操作系统很可能是开源的Linux,数据库可能是mysql或者mongoDB,从hadoop、spark到pandas,从pycharm到jupyter,从sklearn到tensorflow、pytorch,开源软件已经渗透到开发的方方面面。而从ImageNet造就的一大批开源预训练图像模型到word2vec以至...

爬取了全国16000+家公立医院的名录,包含了医院名字、地址、国家评级、医院类型等信息。 挑出评级较高的三级医院(包含特等,三甲,三乙及三丙医院),用百度地图做底,画出了如下的的地理分布图。 公共医疗资源的不均衡一目了然。 附统计数据: {name: '海门', value: 0}, {name: '鄂尔多斯', value: 6}, {name: '招远', value: 1},...

代码在https://github.com/crownpku/federated_shap 论文在https://arxiv.org/abs/1905.04519 截稿日期的前四天,在讨论工作项目的时候有了些许灵感,决定着手计划尝试写些实验代码。闭关了一共四天,每天早上早起去海边跑步,理清思路,列好计划,回来冲个凉水澡就开始搬砖到晚上。在截稿日期的前一晚做完所有的工作,提交了论文,合上电...

Introduction Federated Learning originated from an academic paper in NIPS 2016 [1] and a follow-up blog [2] in 2017, both published by Google. The idea is that Google wants to train its own input ...

2014年的时候我在香港一个研究机构,自己手头的一个项目是搭建三维扫描系统。原理简单讲就是用投影仪投射结构条纹到目标物体上,再用相机捕获在物体表面扭曲之后的条纹图像,然后反算出物体的三维点云。原型系统搭起来,算法在笔记本就能跑通,随便拿出手边的东西扫一扫,效果还是很有趣。举个梨子: 客户是寻找芯片缺陷检测的方案;生产线上一条条芯片跑过去,对检测速度要求很高。所有能CPU并行的部分都并行...

What is Federated Learning? Federated Learning originated from an academic paper in NIPS 2016 [1] and a follow-up blog [2] in 2017, both published by Google. The idea is that Google wants to train...

联邦学习(Federated Learning)起源于谷歌2016年发表在NIPS的一篇文章[1]和2017年发表的博客[2]。其大意是谷歌要训练自家安卓系统的Gboard输入法模型,但又不希望把用户敏感的键盘数据上传到自家服务器(此处@搜狗)。与其让用户上传数据到云端服务器训练模型,谷歌选择让用户在自己的智能手机上单独训练一个模型(感谢各家芯片厂商的neural engine),然后把千万...

从王思聪微博抽奖说起 前几天,王思聪在微博上举办了一次抽奖活动,奖金是一万块。 为庆祝iG夺冠,王思聪于2018年11月6日通过微博发布冠军之月庆祝抽奖活动。这次王思聪113人的中奖名单,有112人的性别为女性,男性只有1人。这里说的是微博资料的性别。另外苹果手机占这113人的78%,而苹果手机在中国市场的占有率不到10%。 网友这下炸开了锅。铁杆LOL粉全都抽不中,奖金都给了...

最近在研究Rasa Core的开源代码。Rasa Core是一个对话管理系统的训练和部署工具,承接Rasa NLU的实体和意图识别,成为一个任务导向型的构建聊天机器人的完整技术方案。 看到Rasa的工程师已经基本开发出一个很完整的对话引擎系统。数据定义、模型管理、对话序列的Keras序列训练等等都已经完成,只欠一个NLG的自然语言生成部分还是个空壳子。非常棒的是有一个Interactive...

Weighted Word Vector w.r.t TF-IDF This document introduces the method of calculating document vector by using weighted word vector w.r.t TF-IDF, with code in text2vec as example. The idea is that...

代码在 https://github.com/crownpku/text2vec 文本向量化,顾名思义就是将一段文字(一篇文章,一个段落或者是一个句子)变成一个向量。在尽可能不丢失原始文本信息的情况下,将文本变成可以计算的向量,可以帮助后续的文本聚类、分类、相似度匹配等等的诸多任务。 手头的一个小项目要对英文短文本进行20个标签左右的分类。标注数据量只有几千条,尝试了几种深度学习方法...

左脚脚踝忽然疼起来了。从一点点像是里面藏了只软鱼刺,到越来越痛,站立走路也不行了。 然而仍然是要上班。一瘸一拐走在湾仔天桥上,这才发现原来所有人都走得这么快!穿着正装的写字楼白领,身上仍有泥水的建筑工人,提着大箱子的游客,都步履匆匆紧跟着人流前进。而自己就像是急速流动的河水中间的一块巨石,不断被身边急速行走又步速颇为一致的人群侧身绕行超前。 想起来几天前,自己也是这人从溪水中的一员,...

Introduction I will mainly talk about the technical details of an open source project Chinese Annotator I’ve been working on and some thoughts around it. Before that, I’d like to emphasize the con...

深度学习,和所有机器学习算法一样,也有着bias-variance的平衡问题。Bias是指模型基于不准确的假设而给出了错误答案,通常由于under-fit产生,模型的表达力还不够强大;Variance指模型由于训练数据中的小扰动过于敏感产生的错误,通常由于over-fit产生,模型太过复杂而失去了训练集以外数据的泛化能力。 深度学习的模型发展到今天,神经元层数越来越深不见底,层间连接也...

这篇文章事先想好了一个逼格甚高的英文题目,Distributed Asynchronous Collaboration: For a Better World. 缘起是最近这半个月和几个非常棒的朋友们一起合作一个开源项目。半个多月以前我们还互不认识,因为一个中文文本标注工具的共同愿景和一个智能化主动学习算法的技术追求走在一起。项目最开始只有一个模糊的idea和一篇文章,到后来团队越来越壮大...

项目地址在https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。深度学习大行其道的今天,基于深度学习的NLP模型更是数据饥渴。 最前沿的NLP技术往往首先针对英文语料。英文NLP的生态很好,针对不同有...

chatbot是这一两年最火的话题,是自然语言处理“王冠上的钻石”。chatbot本身是一个很难的问题,商业与技术上套路都貌似飘忽不定。这篇博客我们试图理清思路,简单聊聊垂直领域的主要是任务导向的客服性质的chatbot。至于开放的偏娱乐性的陪聊机器人,如小黄鸡和小冰等,严肃如我暂且略过不谈。 文章仅代表个人看法,学识和视野都有限,欢迎讨论欢迎拍砖。 确定要用chatbot? 在探讨技...

代码在 https://github.com/crownpku/Somiao-Pinyin 对于中文文本数据,我们每天都在为腾讯贡献着聊天记录,或者为百度贡献着搜索记录。而中文文本数据最大的入口,我觉得其实是搜狗输入法。这些年看上去,搜狗已经基本统治了中文输入法。PC,Mac,iPhone,安卓都装上了搜狗输入法,甚至码农朋友们装上ubuntu后的第一反应也是去装个linux版本的Soug...

代码在 https://github.com/crownpku/Information-Extraction-Chinese/tree/master/NER_IDCNN_CRF 上篇文章聊到了关系提取,今天来聊聊实体识别。 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。实体识别可以简单理解为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。因为同是序列标注...

代码在 https://github.com/crownpku/Information-Extraction-Chinese/tree/master/RE_BGRU_2ATT 实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题:给定两个实体和两个实体共同出现的句子文本,判别两个实体之间的关系。 使用CNN或者双向RNN加Attention...

代码在 https://github.com/crownpku/rasa_nlu_chi 自然语言理解(NLU)系统是问答系统、聊天机器人等更高级应用的基石。基本的NLU工具,包括实体识别和意图识别两个任务。 已有的NLU工具,大多是以服务的方式,通过调用远程http的restful API来对目标语句进行解析完成上述两个任务。这样的工具有Google的API.ai, Microsoft...

总结了中文NLP相关的一些资料。 有问题或者补充请随时留言或者发issues到[github] awesome-chinese-nlp A curated list of resources for NLP (Natural Language Processing) for Chinese 中文自然语言处理相关资料 图片来自复旦大学邱锡鹏教授 Contents 列表 1. ...

代码在 https://github.com/crownpku/hk_ipo_prediction 香港股市常年位于全球新股集资三甲之列,每年都有上百只新股上市。与已上市的正股相比,新股的特点是没有任何历史交易数据,这使新股的feature比较朴素,使其可以变成一个较为简单的机器学习问题。 我们在这里,以练手为目的,用新股首日升幅的预测作为例子,介绍一个比较完整的机器学习流程。 所有的...

引言:一个不会同态加密、模型融合、区块链技术的机器学习竞赛网站不是一个好的对冲基金。 在计算机科学尤其是人工智能领域,开源是普遍的共识。Github上活跃着世界各地成千上万的程序员,每天都有如Google、Facebook或者个人开源出新的项目和新的数据。开源让信息彻底开放流通,带来的是人人为我我为人人的共享精神和人类技术飞速的发展。 诸如Kaggle的机器学习竞赛平台,是开源精神的...

代码在 https://github.com/crownpku/share_everything 万物共享 人类最早的分享,是岩洞壁上的牛马神蛇。我们的祖先从那么早开始就有交流分享的冲动。后来有了文字,有了印刷术,整个人类的集体智慧就喷涌了;自然界靠DNA变异进化数亿年的信息流,人类靠语言文字数百年就冲过去了。 然后有了互联网。Boom! 信息共享的同时,是物质的共享化。 你所在的...

本文一开始,我们先来讲几条优化算法的公式推导… 慢慢慢,开个玩笑,客官留步。 其实除去酷炫拽的人工智能技术的理论知识和编程技巧之外,人工智能正以非常接地气的方式影响着我们每个普通人的生活。我自己常常会在尝试某一个基于人工智能技术支持的新功能之后觉得非常Excited!我想把这些感动分享给大家,在这里就以Google的产品为例子,与大家讨论一下生活中的人工智能产品。 提到Google大家...

自从Google在搜索服务中加入了Knowledge Graph之后,知识图谱的概念就越来越火。谷歌是在用户搜索目标词汇时给出相关信息,比如搜索奥巴马的时候也给出奥巴马的年龄、身高、家人和相关搜索等等: 这次要聊的是企业关系的知识图谱工具。自从工商登记信息作为政府为了企业信息透明而被要求公开的信息之一可被在网上公开查询之后,很多聚合了企业相关信息的数据服务出现在网上。这里以小米为例子,...

Optimization methods play a critical role in machine learning algorithms. In this article we try to go through different gradient methods that are used for searching for the optimization value of a...

One of our projects is to make a low-cost 3D scanner using structured light. We were targeting the CIOE exhibition at Shenzhen in early September this year, and we managed to build up both in hardw...

一   关于我的这几年生活,我零零散散地写了不少文字,像是一个个贝壳。现在我想把它们串起来;我觉得我有资本得到一串链子了,无论它是否光鲜夺目。 在逃离高考而毕业未至的日子里,我做了很多平日看起来无比奢侈的事情,比如从太阳升起睡到太阳落下,比如意外地从父亲那里得到一个全新的moto e680i,比如骑着吱吱惨叫的自行车在城墙内外乱逛。做这些事情的时候心中会有轻微的不安,因为仅仅几个月前,...