本周工作思考
- 本周uShow的任务比较多,目前很多数据配置任务的自动化节省了不少时间,所以能够比较顺利按照客户预期完成上线。随着uShow项目的增多,在和客户专家打分的拟合过程中,为了更好的拟合客户打分,除了相关性的指标,另外增加了数值平均分、方差、误差率等相关指标,这些指标能够从更多的视角分析客户专家打分的特点,通过整体分析客户逐字稿的逻辑特征, 不断调整uShow系统的可配置参数和标签,能够使这4个主要指标基本符合客户专家打分特征,这样基本能够保证大部分uShow在上线后的泛化能力,这种方式需要要求客户在挑选专家打分的练习样本视频时要更加全面。
- 我一直非常认可uShow的这种基于视频的综合练习,对特定的业务场景来说,客户来即省力又省成本的效果,对用户来说,这种客观上要求沉浸式练习的要求,实实在在能够起到大量刻意练习带来的综合能力提升。对很多用户来说,Ta可能没有在学习中践行刻意练习这种学习行为思想,但因为购买我们的uShow产品,Ta在使用产品过程中就自然而然的体会到这种科学的学习方式带来的对自身演讲能力带来的极大改善。
- 我再平时的uShow项目执行中也学习和领悟到了很多东西,因为我能看到底层维度的数据,比如口头禅的处理,如何梳理逻辑腹稿结构,表达的表达等。 同时我的另外一层想法是,如果用户在长时间的uShow练习中能够做的非常优秀,那么我也非常有理由相信用户在日常的工作表达中也非常的优秀,长时间的uShow练习其实也是在夯实工作口语沟通的基础能力。
- ASR是目前uShow的基础,uShow的ASR识别其实面临的不少的现实挑战、 通过用户的逐字稿其实可以看到不同的用户的口语表达能力,有的用户的逐字稿非常连贯清晰,有的用户的逐字稿非常散乱,三四个字就被识别为了一句话,这种情况无论是使用大模型还是小模型,都不太可能有很好的分数。但是从场景来说,比如县域医院的药品推广,这些医生需要诊治的病人都是当地人,所以也就会由当地口音,基于这种环境,医药代表带着口音的宣讲可能也是拉进医患关系一个策略,从这个角度出发,我们也不太可能片面的认定这种口音下的ASR不合适。
- 最近这一种我也利用一些时间优化ASR的识别准确率,因为在实现上这个准确率会影响到后续的一些列的NLP计算。基于ASR模型的限制,我们需要手动配置大量的医疗术语,目前这部分医疗术语我们是通过大模型抽取的,相当于人工抽取,大模型会最小的时间把尽可能多术语的抽取出来,这会在一定程度上提升逐字稿的准确率,这部分是是ASR后处理,所以只能提升逐字稿的准确率。另外就是现在的拼音模糊算法存在效率和准确度不高的问题,这些问题都是最近在解决的问题。