一、单位情况
科大讯飞华南人工智能研究院(广州)有限公司(下称“华南研究院”)于2017年落户广州南沙区,是南沙区重点引进的人工智能代表性项目,在广东省、广州市和南沙区各级领导和各部门的关心指导与大力支持下,研究院各项工作快速发展,取得了很好成果。研究院组织架构完善,建立了研究中心、工程中心、综合管理办、创新孵化中心,形成了基础研究、大数据、客服NLP、司法NLP、肺部CT、骨科影像六大研发方向,已认定为广东省高水平新型研发机构、广东省智能语音人机交互工程技术研究中心、机器人智能交互广东省新一代人工智能开放创新平台,在广东省人工智能技术领域处于领先水平。
华南研究院聚集了高端研发团队,目前共拥有员工40名,全部拥有本科及以上学历,其中研究生以上学历占80%(博士研究生学历与博士后19人、硕士研究生13人),搭建了研究中心、工程中心、综合管理办、创新孵化中心的完整框架,研发团队形成了基础研究、客服NLP、工业质检、医疗影像、声音振动、大数据六大研发方向。研究院团队积极参与制定“广州市人工智能发展五年规划”,为人工智能产业在广州的集聚和壮大提供指引。按照研究院董事长杜兰博士提出“要在听得见炮火的一线来做应用研发”的思路,华南研究院整合优势资源,促进人工智能生态领域新技术、新产品、新工艺的研发,加速技术成果产业化,进一步提升在学界、业界的影响力和知名度。2018年以来,研究院已授权知识产权98项,其中发明专利5项、实用新型专利51项、外观专利5项、软件著作权37项。
华南研究院在语音合成、语音识别、口语评测、自然语言理解、图像识别等多项国际测评中占据领先地位,自成立以来,紧紧围绕《广东省新一代人工智能发展规划》,以基础性、前瞻性、应用性研发为原则,定位于立足广东、辐射华南、服务全国,打造华南人工智能研发新高地。研究院通过人工智能在教育、医疗、政法、城市等应用场景,已经实现了源头技术创新和产业应用的良性互动,并通过产学研合作建设了广州南沙-科大讯飞人工智能医学影像诊断中心、华南理工大学-科大讯飞脑机协同混合智能技术及应用联合实验室、华南师范大学-科大讯飞行业大数据应用融合创新联合实验室。研究院以三大联合研究机构为依托,让人工智能研究更贴近行业需求,技术转化全面提速。
二、科研创新情况
1、语义理解技术研究
在客服NLP领域,研究团队在原有语义理解模型基础上,研发了BERT加有序LSTM方案,提升运营商客服场景下意图识别率至82.75%,金融客服场景下识别率至87.12%。针对语义理解中多厂商多条线的需求,提出了共享统一编码层方案,并对多分支多任务联合优化和额外输入标签两种方式进行验证,其中联合优化对比此前单一任务模型效果最大提升可达6%,并且实现模型部署可在厂商条线之间无缝切换。针对垂直场景中语料不足的情况,研究团队使用CVT和MIXUP两项技术生成多样性的掩码和混合数据,进一步提升客服场景中的意图识别和TOKEN抽取的正确率。在阅读理解任务中,研究团队利用多重注意力机制预测答案在文本中的位置,基于百度百科数据的模型,可以实现了72%的问答正确率。目前该项技术已运用于宝洁、越秀地产等大客户智能客服系统。
在司法文本中,研究团队围绕案由中实体和属性的抽取与关联进行要素抽取。根据时间描述,地点描述,人名指代等进行事件描述结构化,辅助评判两个事件是否为同一事件,提升同一文本内事件共指基线模型2%~3%的绝对F1值,同时进一步使用相似词匹配等技术改善同卷宗跨文本一致性分析。基于事件的证据链分析技术,对司法意见书和犯罪前科的生成准确度可达90%。基于语义匹配预训练模型,研究团队还实现跨笔录信息匹配关联搜索,辅助庭审过程中由卷宗笔录供述相关片段做参考。
2、医疗影像处理技术研究
在肺部CT多种疾病体征检测的问题上,研究团队优化了新的损失函数,改进了非极大值抑制的后处理流程,同时利用多尺度融合方案实现了密度增高影和无肺纹理两种征象在4虚警条件下80%以上的召回率,绝对效果提升10%。针对电子听诊器的应用场景,研究团队研发了新的肺音肺炎识别模型,基于声纹提取、说话人识别等相关技术,实现了85%以上的识别准确率。针对腹部CT肝脏分割的问题,研究团队提出了3D全卷积的Encoder-Decoder结构的AbdomentNet网络,使用密集相连的卷积层和边缘敏感的损失函数加强对空间语义信息建模和边缘精细结构的分割。在国际医学影像领域顶级会议ISBI(International Symposium on Biomedical Imaging)设置的CHAOS(Combined Healthy Abdominal Organ Segmentation)比赛线上榜中刷新CT肝脏三项指标世界纪录。在国际顶级人工智能医学影像学术会议MICCAI 2019(国际医学图像计算和计算机辅助干预会议)中,我院医学影像团队又获得AASCE2019 X光片脊柱弯曲角度测量比赛第二名和VERSE19 CT脊椎分割定位比赛总分第三名的好成绩。
3、工业质检技术研究。
在工业数字化智能的技术方向,采用更强的皮尔森系数匹配抽取多维特征的方式,实现了刀具磨损剩余寿命(RUL)多折预测偏差小于6次,整体寿命准确度达到95%以上。针对工业大型设备故障偶发、历史数据少问题,提出基于多元状态估计技术方案(MSET), 通过可解释性地构造正常状态的记忆矩阵,进一步提高多种正常状态能力,多源传感器预测误差小于0.5%,达到业界领先水平。基于视觉的智能制造以及智慧工厂场景中,研究团队优化了新的损失函数,改进目标跟踪的后处理流程,同时利用时空信息进一步增强了断针、飞根瑕疵的视觉特征,F1达到90%,绝对效果提升30%以上。此外,针对端侧的嵌入式部署,研究团队设计了神经网络自动搜索(NAS)的方法,在保证识别精度的前提下,多款AI芯片网络计算复杂度下降50%以上。
研究团队整合公式批改、中文批改、区间表达等多种学科批改规则,结合光学字符识别以及深度语义理解,完成理化主观题引擎服务研发。高中物理化学填空题型,批改准确率达到94%,可批改率平均90%。在文本分析方向,研究团队利用问答(QA)抽取、扩展问挖掘技术,实现了说明文档到QA对的提取,其中在政务领域达到标题到问句BLEU-4指标86%效果。该技术已获得广州市重点研发计划项目资助。