信息麦田里的数据农民

 

「人们看多了一望无际的麦田,就以为地球本该这么平坦。」

 1.

2018年,公众号「郏县之窗」发布了一篇招聘广告,广告投放者是河南千机数据科技有限公司,招聘岗位名称叫:AI标注员

千机数据科技的老板刘洋锋在广告里这样描述这个岗位:「你的一些想法就代表了AI的想法,AI会根据你加工的数据进行深度学习,从而实现智能化。」

刘老板没有说谎,不过他知道,这么说有点夸张。

广告发布不久前,县里有领导来公司参观,读起墙上的海报:「千机数据服务于百度公司、阿里巴巴、京东、腾讯、滴滴等世界500强及行业独角兽企业。」

领导看后,赞不绝口:「刘总,你们这是高科技产业啊!人工智能!好!」

刘洋锋腼腆地笑笑,什么也没有说。

倒退两年,刘洋锋自己也没有听说过数据标注这个行当。

所谓数据标注,用当地人的说法叫「拉框」,工作内容和QQ截图差不多。

打开照片,按照要求,用方框把照片里面的东西框出来,每个画框都严丝合缝地贴着目标边缘。图片里所有目标都要被框出来,不能有遗漏。 

照片五花八门,大多是从网络上抓取的,清晰度很低。甲方的需求也是千奇百怪,有要求标注行人的,有要求标注红绿灯的,也有要求标注垃圾桶的。

这些需求背后的甲方,是大型科技公司的人工智能团队,「拉框」工作生产的数据,是给这些公司用做AI训练的。

刘洋锋的工作,就是用成千上万的结果告诉人工智能「这是什么东西」,再通过深度学习算法加工,让AI能够自动识别它们。

人工智能识别这些东西有什么用?千机数据的员工并不知道。

他们只是知道,每隔几个月,老板会跑一趟北京,拿回项目来,员工们拉一天的框,能挣到一百多的工资,比起在超市干收银员,这活儿轻松不少,说出去也有面子。

 2.

2010年,还在广州番禺职业技术学院读书的区展聪在系公告栏看到一张彩印的海报,标题是《BIM建筑革命》,配图则是在那个年代非常洋气的三维管线综合效果图。

区展聪其实并不明白这个BIM是什么东西,但好奇心已经被唤醒。

第二天,他和同学就去参加了这场「建筑行业信息化革命」的讲座。几个小时的时间里,他听到了无数在课堂上从未了解的内容,二维与三维同步、VR仿真、模型数据、信息管理等概念不停冲击着他的心灵。

讲座是一家BIM咨询公司主办的,主要是为了招收实习生。对于正面临就业迷茫的区展聪来说,谈不上什么对建筑业未来的期待,他希望的只是找一份工作。

那家公司很快就在学校的机房开展BIM培训,区展聪报名参加了。软件是Revit2010版,学习内容就是翻模。他不是一同参加的同学里最有激情的,却是少数坚持到最后的同学之一。

很快,区展聪见到了公司的马经理。随之而来的是第一个实习项目——30万平米的商场。没有数据分析,没有协同设计,没有5D模拟,工作内容很简单,墙、门窗、楼板、楼梯,一个又一个三维构件被添加到文件里,像是搭积木。

按照公司的模板,他把模型上发现的问题记录下来,编成一份问题报告,交上去,项目就完成了。

「你挑出来这些问题,都是那些经验丰富的设计师犯下的错误,被你这个在校生找出来了,可想而知,你掌握了BIM之后,有多厉害。」公司领导事后这样夸赞他。

「使用BIM企业的都是行业先驱,没想到做起来就这么简单。」年轻的区展聪想。

 3.

2007年,计算机视觉专家李飞飞第一次试验用数据标注训练人工智能时,以每小时10美元的价格雇佣了一批普林斯顿的本科生为她「拉框」。

2009年,她和一群华裔学者建立起一个超大图像数据库。2010年起,每年他们都会举办一次计算机识别竞赛,参赛者拿出自己的算法,以数据库内120万张图片为训练样本,经过训练的算法再去识别另外5万张新图片,看谁的算法识别率更高。

数据库里面的每一张图片都是经过人工标注的,这一点很少有人知道。

一晃八九年过去,当时普林斯顿本科生干的那些活,飞入了中国河南、河北、山东的四五线小城,成了一个产业。

千机数据科技就是活在产业夹缝里,专门为独角兽们服务的数据工厂。

刘洋锋开过挖掘机,在全国跑过饮料瓶推销,在云南红河卖过葡萄化肥,还在珠海做过一段单片机。

公司从策划到成立一共用了三天时间。标注软件是客户提供的,办公桌是在平顶山旧货市场买来的,第一批员工则是他开手机店的老表在微信群里喊来的。

首批员工有初中毕业生、家庭主妇、手机店员,很快大家就能熟练操作了,电脑也从20台逐渐扩充到500多台。

刘洋锋的公司就像个大网吧,所有电脑和沙发也确实是从网吧二手收购过来的。沙发坐久了腰不酸,原价400多,刘洋锋买的二手,还不到100块。

这份工作的门槛几乎为零,只是打开人家的网页,用人家的软件,在上面把人家的数据,按人家的格式给人家处理好,交给人家。公司接触不了关于AI的任何东西,数据自己也保留不了。

千机数据一名20多岁的员工鲁冰冰说:「我现在也没有想明白,这个事它到底是做什么,不过我是出来工作的,只要给钱就行了。」

现在拉一个框,员工收入6分起,最高能到1毛钱。北京也有类似的同行,不过那边工资高,招来的员工也多是中专和大专生。刘洋锋只招初中、高中学历的人,他自己也没读过大学。

他说,就拉框本身来讲,「众生皆平等。

 4.

区展聪想通过BIM得到一份工作,他成功了。

进入公司的时候,他还身兼着学生的身份。公司的电脑配置好,还有空调。老板不在的时候,就和其他几个年轻的同事用高配电脑打打游戏,老板在的时候,就研究建模,刷BIM论坛和网站。

帖子看得越来越多,区展聪却没觉得里面描述的未来和自己有太大关系。日常的工作还是搭积木,摆模型。

如领导所说,利用BIM,他总是能比设计师更快地发现问题,可他只能发现问题,却不知道这些问题该怎么解决。

专业上的事,他不懂。

接手的第二个项目,是柳州的一个展馆,他的工作是给外部钢结构建模。

这个项目,区展聪遇到了新的问题:他不会读钢结构图纸。那些承载着结构工程师们无数计算和行业标准的线条,对他来说像是天书一样。

琢磨了一天无果,他跑回了宿舍,想做一只鸵鸟,找个借口不做这个项目了。

几天之后,小领导向老板给他打电话,一顿思想教育之后,又远程教他怎样读图、怎样建模。加上另一位同事刻苦钻研的精神打动了他,他回到了公司,和那位同事一起啃模型。

模型刚刚建完,又接到向老板的通知:现场已经干完了,但为了保证模型和现场统一,让后续专业能够正常使用,模型还要连夜改。

那位刻苦钻研的同事叫Oscar,项目后期,对内主要靠他的彻夜琢磨;对外主要靠向老板的伶牙俐齿。

最终,这个项目居然神奇的搞下来了,不仅有模型,还出了量表。

完工的时候,向老板戴着安全帽,夹着笔记本,现场摆放的幕墙嵌板和量表上的如出一辙,遇到找不到安装位置的嵌板,向老板翻开笔记本,摆出模型,现场提示。

虽然和人们宣扬的「全生命周期管理」相差甚远,公司总算是履行了合同,交付了错误检查和量表。

柳州项目的庆功宴上,向老板问区展聪:毕业后,干BIM不?

区展聪想了想,说:干。

那个时代,所有人都在写文章,谈数据提取、信息传递、设计协同的未来,但实际项目里,区展聪用到的,就是翻模,碰撞检查,出材料表。

有点无聊,有点空虚,但能赚到钱,就很不错。

区展聪完全不知道时代会往哪个方向发展,只是抱着既来之则安之的心态,把BIM做下去。

 5.

郏县有一家网红饸饹面馆,老板的儿媳妇是个网红主播,在一家短视频平台上有80多万粉丝。经常有粉丝慕名而来,也给面馆招来不少生意。

视频里的她和本人有很大区别:眼睛变大了,皮肤变好了,下巴也变尖了。短视频软件的滤镜把她变美了。

滤镜靠的是人工智能,可以实时瘦脸、大眼、磨皮。APP之所以能识别哪儿是眼睛、哪儿是下巴,正是因为事先有人标记了那些五官。

29岁的马萌利是千机数据的员工,她也经常来这家面馆吃饭。看着老板儿媳妇自拍的样子,性格开朗的她总会吃吃的笑起来。

几年前,她们的命运还很相似,后来技术将她们塑造成了两类人:女主播运用AI提供的便利赚钱致富,马萌利成了每天为AI打工的人。

马萌利开过网吧、做过超市收银员,现在在千机数据做这份工作,收入比收银员高,办公室有沙发、有空调,还能早下班陪孩子,她对现在的工作很满意。

每天的工作从早晨8点钟开始,坐到工位,打开电脑,输入用户名和密码,移动鼠标开始标记,日复一日,每天持续9个小时。

她标记过人体关节、道路上的交通工具、房间里的家具。

她只知道这些是给人工智能学习用的,具体学什么、做什么用,她不了解,也不太关心。

普通人只知道人工智能用在美颜APP里,可以知道哪里是内眼角、外眼角,瞬间扩出大眼睛;智能音箱懂得「关机」和「十分钟后给老板打电话」是什么意思。

但绝大多数人并不知道,它们的背后,是千机数据这样的公司里,马萌利这样的AI数据标注工人,用最原始的办法,一张图接一张图地手动标记,一段一段的对照文字录音。

他们永远是任务的被动承接方,那些发过来的图片包,信息都是被打散的。

千机数据的每台电脑都没有硬盘,整个办公室连着一台服务器,标注好直接上传,没法用U盘拷贝出来,也没法添加别的图片进去。

公司一名31岁的员工王泽方说:「以前我以为人工智能会自动分辨东西的,做了这个以后才知道原来是我们分辨了之后再教给它。人工智能啊,就这样。」

李开复曾撰文表达过对AI技术快速发展的担忧,认为这将导致社会结构的洗牌,贫富分化加剧。特斯拉的老板埃隆·马斯克也是坚定的AI研究反对者。

刘洋锋和马萌利这样的人,并不会思考这些问题。数据标注工厂是人工智能产业体系里最末端的毛细血管,千机数据这样的小公司都是在巨头的夹缝里生活。

但这并不影响马萌利对自己工作的满意,也不影响刘洋锋继续扩张公司规模。

对他们来说,这就是一份营生。

 6.

2011年,正当区展聪被翻模搞的疲惫不堪时,公司突然接到了新业务:做动画

区展聪上网看了看其他公司的动画,只有少量作品堪称高大上:阴影柔美、反射真实、旁白大气、字幕专业。而剩下的大多数动画,不是Navisworks呆板的漫游,就是打着录屏软件试用版水印的Revit界面录屏。

区展聪觉得,这个事他也能搞。

琢磨了一个多月,把主流的动画软件学了一遍,也能做出个光影差不多的漫游动画来了。老板看到他对这东西感兴趣,就对他说,「好好做,大家的劳动成果就靠你们来包装了。」

之前遇到的项目,总是刚会一点点就被赶鸭子上架拉到现场。这次也不例外,很快区展聪就被老板拉到了新的项目上。

介绍他的时候,老板对客户说:这是我们专门负责动画的区工,有两年的动画经验。

客户的需求是要一个完整的项目介绍动画,内容要包括项目概况、进度计划、难点施工方案、工程目标、客户企业文化。

这一次,又是在老板的鼓励和同事的支持下,硬着头皮做了一版动画。

客户看完这版动画,对他说:

「项目的情况可以说得更复杂点,显得充满难度。BIM这个噱头也不要浪费,把应用效果说的更好一些。要让业主觉得,我们施工质量高,现场管理好,工程进度更快,为他们节约的成本多。」

给项目做动画谈不上什么艺术灵感,区展聪能做的只有两个字:熬夜。一直熬到业主汇报会的当天。

会议上,播放「项目概况」时,业主看得很专注;播放「施工难点及解决方案」时,专家们看得很专注;播放「BIM现场管理措施」时,业主和专家们看得都很专注。

会议后半段,经理上台给业主和专家们讲解这个BIM应用是怎么回事,大家听得很认真,但随着经理的演讲结束,大家就讨论起工期、质量和解决方案。

对于BIM,大家点头微笑,却并没有发表更多意见。

散会时,屏幕上继续播放着区展聪熬了一个月做的动画,磅礴的音乐声回荡在会议室里,但业主和专家们已经迅速离去。

 7.

2018年,数据标注产业一下子涌进了很多竞争者,大公司的业务被稀释到很多外包商手里,一个月只有10天的活,却要发30天的工资,不少老板都不做了。

刘洋锋留了心眼,最早合作的Momenta、旷视等公司,以及后来合作的百度、阿里等公司,都保持着联络。靠着从多家公司拿业务,公司度过了财务难关。

2018年,千机数据又接到了新的业务:人像数据采集。

这一年,国内AI产业突然增大了人像采集的需求,这成了新商机,河南、云南很多公司都在抢这个活儿。

每个被采集的人都要录各种装扮、角度和光线,时间至少要45分钟,采购价每人100元,在一二线城市,这个价格根本吸引不到志愿者。

一开始,千机数据在郏县做人像采集,后来人少了,刘洋锋就在县城下面的薛店镇开了个分公司,继续采集。

公司门口放着一台音箱,全天滚动播放着劲爆的音乐和浑厚的男声:「通知:年龄在18~50周岁的,请前往薛店镇三苏路口南50米路西,免费领取价值58元5升食用油一瓶,或10斤精品大米一袋!」

公司大厅摆了几组摄像头,门口堆满了成箱成箱的大米、豆油和卫生纸。

每个房间都在拍着视频。农民们对着摄像头,听着员工的指令,「左」、「右」、「转头」,摆动自己的脑袋。接着还要摘下眼镜、戴墨镜、戴上头巾、涂上口红,场面十分有趣。

有农民大叔路过,好奇地过来问:

「这是弄啥咧?」

「过来拍一下人像,就送大米,油也行。」

「干啥用的?」

「做智能门禁,有的写字楼、高档社区,人一过去门就刷开了。有的光线不足就刷不开,人家想解决这个问题。」

「噫……」大叔犹豫了一下,走了进来。

40多分钟后,大叔领了一桶油,得知再拉一个人来还能领一瓶洗衣液,过了一会又拉来了两位大姐。

刘洋锋说,在郏县县城做人像采集,50块钱一个人。而在薛店镇,直接给钱,农民会认为他是骗子,所以就想了送米送油这个法子。

有人一家老小从几十公里外的县城赶过来,拍摄一小时,换几桶油回家。

100块采购价,去掉给农民的奖励、员工的支出,平均每人身上能赚20,一个拍摄点每天最多能拍50个人。

「比起以前做app地推,这个钱不好挣」,刘洋锋说,「那也得挣,活下去才有机会。」

 8.

给项目做完了动画,区展聪感觉有点失落。

他觉得这个项目里,BIM做了很多的工作,但似乎不怎么被人重视。BIM和现场走在两条平行的路上,现场的人很少和他们交流,发现问题也不来找他们解决。只有快要汇报的时候,项目上对动画催的紧。

项目结束之后,他跟老板提出了这个问题,老板沉默了一会,说:

「这个项目,是总包高层在推动BIM,但实际实施的是分公司的人,他只是调过来帮忙的,BIM搞得好不好,跟他没有直接利益关系,过程中多一事不如少一事,最终弄个动画,交差了事。这不是技术能解决的问题。

项目结束后,区展聪回到平淡的日子里,每天的工作就是学习案例。他能够照葫芦画瓢的完成那些案例,却依然不知道里面的因果关系。

桌面上的软件图标越来越多,同事也对他愈发敬佩,成为「BIM大神」的他却没有感觉到预想的充实。他总感觉自己的劳动成果是一种可有可无的附属项。

在那之后,区展聪参与了有报奖需求的复杂项目,也参加了客户要求很高的香港项目,每一次都是临阵磨枪,赶鸭子上架,每次都是刚过及格线地完成了任务。

香港业主对建模的精细度要求很高,提过来的需求文件,对模型的拆分规则、构件的命名、参数的命名、成果交付的方式等节点都提出了明确要求。

区展聪问同事,模型做这么细干嘛用?同事说,好像是业主后续要拿这个模型来做成本、运维的应用,所以对模型有特定的要求。

那是在2012年,大陆也吹起了全生命周期管理的风,各种会议、沙龙、门户、文章都在谈信息化。区展聪一直在关注,好像一直在吸收着知识,却又觉得没吸收到真正的知识。

信息化的水越来越深,他却说不清自己在水面、在水底,或者干脆就是其中的一滴水。

2013年9月,区展聪离开了那家咨询公司,去了设计院继续修行。

 9.

千机数据成立时,几位创始人预估,这个公司也许只能开三到五年。

所有人都在讨论AI代替人工的可能性,可在郏县,拉框的工作短期内还不会被机器替代。

刘洋锋说,他们除了人脸、车辆、3D云图、语音,还在录入各种不同的样本,在这些样本里,雨天、雪天、晴天、多云都不一样,服务的行业和客户也不一样。

AI圈里的人有句话:人工智能,有多少智能,就有多少人工。

2019年,刘洋锋的业务开展的不错。合作伙伴的名录里有百度、Face++、Momenta、华为、阿里巴巴、腾讯。公司从事拉框标注的有400多人,在许昌、南阳、平顶山和周边乡镇开设了分公司。

一个行外人去看千机数据官网上的业务介绍,很难想象这种高精尖的文字背后,是一群怎样的数据农民在耕作。

年底,刘洋锋计划完成2000人左右的团队建设。尽管做的事很基础,但他希望把千机数据做成中国最大的数据采集和数据标注基地。

「这也算是我为中国的AI做的贡献吧。」他说。

 10.

2013年区展聪去了中机国际工程设计研究院,2015年又入职广东博意建筑设计院,主要做BIM设计研究,也接一些BIM咨询的活。

在设计院,他给设计部门做软件培训,还有样板、族库、建模、出图等标准的制定。不过因为进度、成本等原因,设计院的同事还是习惯用CAD设计。

2017年,院里架构重组,领导层决定,先不搞BIM了。区展聪离开了设计院,去碧桂园森林城市公司,为甲方项目部提供BIM技术支持。

在甲方,他主要协助项目部做BIM应用。大多数的项目还是只用到碰撞检查、管线综合,只有极少数的项目可以真正做到施工环节。项目部的人很忙,要考虑的事情也多,让他们学BIM,大都有心无力。

他们现在的项目,会把数据上传到BIM平台,除了模型,还包括一些文档:比如产品说明书、检查周期、供应商等。

区展聪说,他认可建筑信息化的理念,计算机对字节的处理,一定比人对实体的处理更高效。人们应该思考,有了这些信息,怎么创造效益,还要思考信息安全的问题。

现实存在的问题是,信息录入很繁琐。负责人、录入时间、录入标准、检查标准,都要在合同里说好,否则人们懒得录入,信息流失,数字化也就废了。

项目部的同事都有自己的职责,不可能要求他们为了什么BIM理想,去干本职工作之外的事。他会在工作中想办法协助他人,但不会强求他们用自己提供的方法。

2019年,区展聪很忙,心里的疑惑也没有原来那么多了。

现在的他觉得,工作就是工作,少去想那么高大上的应用,把自己的事情做好,别人用不用自己的模型,留给别人去选择。

对于曾经翻模的经历,区展聪说:「那段经历养活了我,也造就了我,我现在拥有的大部分东西,都是BIM给予我的,我很感谢BIM。」

偶尔还会有咨询公司的人找到他谈BIM,看到比自己年轻的人在走自己当年的路线,他觉得,不同的人,资历不同,社会关系不同,该走的路都要走,不能评论好或者不好,也没必要硬和传统行业去比。

非要给什么建议的话,少熬夜,注意身体。

后记  

历史是由故事编织而成的。

故事需要分两个版本,讲给两种人听:一种是相信故事的人,另一种是帮助第一种人把故事实现的人。

第一种人喜欢的故事很纯粹,他们要解决的是关于未来的梦想,需要的是一种可能;

第二种人喜欢的故事很现实,他们要解决的是关于当下的问题,需要的是一份工作。

人们看多了一望无际的麦田,就以为地球本该这么平坦,却忘了那是麦田里的农民一点点耕作出来的。

尽管农民们从不觉得,自己的耕作是为了什么诗意的麦田。

伟大、致敬、平凡、坚持,这些词汇是别人写给他们的。

他们只是每天完成工作,回家看看孩子,盼着今年收成好点,粮食采购价格能高一点。

[END]


注1:本期故事取材自GQ报道《通往未来之路 | 那些给人工智能打工的人》(采访、撰文 / 刘敏,编辑 / 何瑫,摄影 / 张博然Eric),区展聪知乎系列文章《装BIM》,以及BIMBOX对区展聪本人的采访。文章及图片经过改编,BIMBOX已获得双方授权。

注2:在我们的文章《BIM政策有谣传,学个软件就赚钱》中,由于工作疏漏,把区展聪的「区」写成了「曲」字,这个错误也被带到我们的纸质书《BIM大爆炸》相关的章节中,后经过交流,区姓念「ou」,在此特别向区展聪先生致歉!

本篇文章来源于微信公众号: BIM清流BIMBOX

相关推荐

暂无评论

微信扫一扫

微信扫一扫

微信扫一扫,分享到朋友圈

信息麦田里的数据农民