安夏心中的电子辞典:“哪里不会点哪里。”
程序员告诉她:没戏。
现在不管是软件还是硬件,都没可能实现。
“你说的那种,需要把字拍照,再通过系统识别出来,要么需要拍照、扫描,要么需要线路发出不时序的脉冲信号,再配上高灵敏的识别。”
这位工程师为了证明不是他们偷懒,在黑板上写下了“画”“书”“昼”的繁体字。
“肉眼都会不小心看错,系统不可能只像四角号码辞典那样对四个点进行定位。必须每一条线都准确无误,否则就会出错。”
安夏认可他的说法,她点点头:“那你们说的可以实现,是哪一种?”
首先,把字典里的字配着读音,都输入存储器。
其次,人把自己想听到的词输入程序。
计算机调取输入的字符,与电脑中存储的字符进行比对,并调取对应的读音。
听起来,还是有希望的。
除了匹配的问题之外,另一个最大的问题是语音输入。
汉字那么多个,上哪儿找这么多人读。
安夏的想法是去有播音主持相关专业的学校,把常用字让学生们各自读了,到时候凑在一起,数据就够了。
技术总监张乔生一摆手:“不用这么麻烦,可以用pso算法,进行波形编码合成。”
“早就有了,不过最近有了新的进展,出了一种新的动态规划法,对浊音段进行整体处理,时域基音可以同步叠加……”
张乔生兴冲冲地企图教会安夏。
没等他说完,安夏点点头:“总之,就是不用人录,就能出声音对吧?”
“对。”
“好,你去做吧。”
请程序员不要难为产品经理,我只想知道这个功能能不能实现,不是很在意怎么实现的。
张乔生说到做到,在没有跳槽进紫金的时候,他就是做音频相关的,研究的比别人也深一些。
很快就拿出了程序,做第一次测试,安夏输入“紫金电脑”。
没声音。
安夏调整音量,没动静。
“声卡坏了?”安夏问道。
又过了30秒,音箱里慢悠悠地吐出一个字“紫”。
又过了十几秒,又缓缓吐出一个“金”。
且不说那个比siri还要诡异的语气。
最要紧的问题是,读完四个字,用了一分多钟。
安夏:“……能不能在调取数据的时候,让它稍微快一点?一份合同上千个字,等念完,一天都过去了。两千字不要超过三十分钟。”
siri风格的念书差不多两千字十二分钟,安夏放宽到三十分钟,已经很放宽了。
程序员再对匹配逻辑进行调整,跳过先匹配字符,再匹配声音的过程,直接匹配声音。
两千字,从九点上班开始念,念到下午两点。
用时比第一版省了一半,然而,离安夏的要求还是很远。
“现在最大的问题是硬件,算完,再调取音频,播放,差不多就是这个速度。”
安夏想了想,问道:“如果是固定的词组或是句子呢?”
“提前录制好,会快很多。”
大多数商业合同是制式合同,会变动的往往是数字。
最多加一两条特殊约定。
https://www.cwzww.com https://www.du8.org https://www.shuhuangxs.com