一个句子只有先正确分词,接下来才能准确理解其含义。如果分词都错了,那么理解时肯定会步入歧途。
李松以前做过分词的项目,有相当的技术积累,像“取得辉煌科技成果”这样的句子是不会弄错的,因此分词这部分很快就做好了。
相较于第一步的分词,第二步才是重中之重,那就是理解句子的含义,进行适当的应答,从而持续进行聊天。
聊天机器人本质上只是一个计算机程序,自然不可能真正理解人类的话语,但可以通过不断学习,以越来越接近人类的方式来与用户交谈,最终能达到以假乱真的程度,让用户察觉不出有异。
这两年,李松的工作重点就是机器学习的研发,这次刚好可以将很多经验照搬过来。
虽然有很好的基础,他仍然花了好几天时间,好在除夕来临时,终于搞出了第一个版本。
此时,魔都的夜空正烟花绽放,迎接新年的到来。钟声敲响之际,李松与父母视频通话,恭祝父母新年快乐,随后又给老魏拜了年。
夜色已深,李松却难以入眠,他决定找点事做。
此时陈岩也没有睡觉。这些天来,陈岩一直忙忙碌碌,从心理学角度设计了各种各样的问题。
忽然,陈岩感觉手机振动了一下,打开一看,发现自己进入了一个微信群,成员除了李松外,还有一个名叫“松江府”的人。
陈岩有些不明就里,正想问问:这是干嘛?忽然听到松江府说了一句:“春节期间,魔都气温将高于往年,预计不会有雪。”
这让陈岩有些遗憾:“这么说今年有可能看不到雪景了?好可惜。”随即又说道:“我还有事要忙,就不陪你们聊了,88。”
李松连忙挽留:“别啊,大过年的,就不能休息一下?陪我们聊两句吧。”
“我还有正事要忙呢。”
“我们现在就是正事啊。”
陈岩闻言一愣:聊天什么时候成了正事?
微信群里有点冷场,没人说话。过了大约半分钟,松江府打破了沉寂:“去年的雪景,大家还有印象吗?”
李松回答:“去年的春节,听说魔都下了很大一场雪,不过那时我回鄂省了,没看到雪景。”
几乎一瞬间,松江府发出了好几张图片,分别是大雪纷飞中的东方明珠塔、外滩、迪士尼乐园、杨浦大桥等。
陈岩一阵赞叹:“去年的雪景确实很美,可谓多年少有。”
忽然,李松收到了陈岩的私聊信息:“哥,你跟这个松江府是啥关系啊?”
“他是我的一个朋友,怎么啦?”
“我觉得这人好像有问题啊。”
这回轮到李松一怔:“啥问题?”
“刚才他一连发出了5、6张照片,你没注意到吗?”
“是发了好几张照片,怎么啦?”
“你刚说完话,他就秒发这么多图片,换做是你,能做到这么快?”
李松沉默了,过了好一阵才说:“好吧,被你看出来了。想要逼真太难了,一不小心就露了馅。”
猛一听到这没头没脑的一句话,陈岩也有些莫名其妙,随即就明白过来:“原来这个松江府,就是你研发的聊天机器人啊?”
“呵呵,没错。可惜没坚持几句,就被你发现了破绽,真是细节决定成败啊。”
这下该陈岩震惊了:“已经够震撼的,你就别苛求自己了!这个松江府聊起天来跟普通人没啥区别,我完全没看出它是个机器人,只是觉得发图片太快了而已,除此之外没啥不对劲的地方。”
“嗯,我等会把这个地方改一下,放图片的速度要慢下来,尽量接近人的正常手速。只是,我不知道像这样的漏洞还有多少。”
“没事,这两天我帮你一起测试,尽量找出问题。”陈岩此时明显来了兴趣:“我回忆了一下,好像是由聊天机器人挑起了最初的话题。”
“这不是按照你当初的要求做的嘛。不过,对于如何挑起话题,我确实费了点脑筋。说什么好呢?直到几十年前,国人见面都会问:‘吃了吗?’,放在当下,这么问已经不合时宜了。所以我就借鉴了西方人的习惯:开头谈天气。”
“嗯,天气的确是开始谈话的一个很好的切入点,不过也可以考虑别的开场白,比如跟魔都有关的重大新闻事件。因为如果日复一日开头说天气,用户也会觉得怪异的。”
“这个意见不错,我会加以改进的。”李松回复道:“还有你说的,没人发言的时候,聊天机器人要及时接过话头,维持兴趣群的热度,我也考虑了。”
“难怪,刚才我们有几十秒没说话的时候,是松江府顺着天气的话题,提到了去年的雪景。不过,我俩私聊了这么久,聊天群里没人理睬松江府,它应该又说了不少话吧?”
陈岩切换回聊天群,发现松江府果然又先后发问了好几次:大家有没有打过雪仗、堆过雪人?大雪对日常生活有没有影响?等等。
“虽然是再普通不过的问题,但显得非常自然。聊天机器人能问这样的问题,还是很令人惊奇的。”陈岩感叹:“不过,好像它现在已经不再说话了?”
“对,松江府被设置成每隔一段时间尝试接过话头,但如果连续3次都没人吭声,就选择暂时休眠,直到有人讲话,它才会被再度激活。”
“可以。但不管怎样,到了每天晚上都要主动重试一下,避免聊天群彻底熄火。”
“你这