海天瑞声11月25日发布投资者关系活动记录表,公司于2021年11月18日接受11家机构单位调研,机构类型为保险公司、其他、基金公司、证券公司、阳光私募机构。
投资者关系活动主要内容介绍:
公司简介:
北京海天瑞声科技股份有限公司是一家从事训练数据的研发设计、生产及销售业务的人工智能训练数据专业提供商。公司位于人工智能产业链的上游,为下游的客户提供训练数据产品和训练数据定制服务。公司通过设计数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供AI算法模型训练使用的专业数据集,通过软件形式向客户交付。公司提供的主要产品和服务包括训练数据定制服务、训练数据产品和训练数据相关的应用服务。
训练数据产品是公司先于客户需求进行研发的,知识产权归属于公司,公司可以通过授权的形式卖给不同的目标客户,而产品的开发成本只有一次,因此可以给公司的毛利率创造较大贡献;训练数据定制服务则是根据客户需求进行数据采集、标注形成定制数据集,或由客户提供原料数据(例如客户的实网数据),公司仅提供纯加工服务,训练数据定制服务涉及的原料数据和加工后的训练数据在交付客户并完成验收后,知识产权完全转移给客户,公司不能自用或授权其他客户使用。
自2005年成立以来,海天瑞声始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。海天瑞声所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智慧城市等多种创新应用场景。其中智能语音为海天瑞声的优势领域,产品线已包含160余个主要语种及方言,并凭借稳定的质量、优质的服务赢得了阿里巴巴、腾讯、百度、微软、三星、亚马逊、科大讯飞(002230)、商汤科技、中国科学院、清华大学等众多大型优质客户的认可,核心技术、产品资源、优质客户等竞争优势逐步凸显。
公司的业务是依赖于AI行业发展大趋势的,具体来说是要看算法、算力的发展以及AI技术应用的程度;在2020年之前,随着深度神经网络和云计算的发展,AI技术开始投入大规模应用,训练数据方面的需求也开始实现规模化。从2020年开始,训练数据对于行业的重要性被提升到了一个新的高度,国家十四五规划当中首次为AI训练数据设置专门篇章、明确了未来五年该领域的发展方向,业界内以吴恩达为代表的主流科学家也明确提出新的“二八定律”,即“80%的数据+20%的模型=更好的AI”。
从过去五年的发展看,海天瑞声较好的抓住了训练数据自2016年至今行业第一个五年的发展机遇,在人工智能技术开始应用的情况下,使训练数据发挥了其商业价值,为公司过去五年获得了收入约30%、净利润约70%的良好增长。未来一个时期,随着AI应用端的高速发展,智能语音、计算机视觉和自然语言技术已经越来越多地应用到更多的场景中,在以智能驾驶等为代表的领域拓展方面,公司将适度超前布局。同时,随着国家“一带一路”战略的进一步深入推进和我国企业出海布局增多,将带动多语言训练数据需求迎来新一轮增长,公司也将在现有语种积累基础上进一步拓展、升级多语言资源体系。
从中长期来看,垂直行业数据、政府数据治理等领域也将是亟待挖掘、拓展的方向,公司也已经开始了这些方面的探索,并计划将该类研究持续深化,逐步扩展到更多的行业领域,提升公司的数据处理能力,赋能人工智能技术与更多行业实体经济的深度融合。
问题回
答:
问:公司对市场空间、行业未来如何看待?
答:公司认为,训练数据行业是一个新兴行业,市场空间广阔,客户对于训练数据的需求是长期持续的。客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,周而复始。
根据市场上的相关报告预估,2025年国内训练数据市场规模能够达到100亿左右,复合增长率20%左右,而公司的三分之一左右的业务来源于海外,因此全球市场空间也是公司关注的,根据整体AI产业的数字比例,全球是中国市场的5-8倍左右,因此,2025年全球训练数据市场规模可能在400-500亿以上,而这当中仅仅是基础类的训练数据市场需求规模,还未把各个垂直行业(例如交通、金融、城管等等)纳入进来,而公司相信这部分的空间是巨大的。
问:公司给科大讯飞提供什么样的产品/服务?
答:科大讯飞是公司多年来的优质客户,公司给科大讯飞提供的产品及服务主要集中在智能语音领域,包括语音识别数据集产品或语音识别数据定制服务。
问:请介绍一下2005-2016年之间,公司的发展路径、速度;2016年之后的股权融资情况
答:在2016年之前,公司规模相对较小,2016年开始随着AI产业的快速发展,公司自身发展也步入快车道。
2016年、2017年公司进行了对外融资,引入了上海兴富、天津金星、银杏谷资本等股东。2019年底,公司引入战略投资者中国移动和中国互联网投资基金(隶属于中央网信办)等,希望藉此形成战略协同效应,并能够紧跟国家政策、服务于国家网信战略的推进实施。
问:公司在多年发展过程中,是否遇到过一些困难?
答:公司的业务是依赖于AI行业发展的大趋势的,具体来说是要看算法、算力的发展以及AI技术应用的程度;因此在2020年之前,随着深度神经网络和云计算平台的发展,AI技术开始投入应用,训练数据方面的需求开始规模化,公司面临的问题是如何提升自身产能去满足市场上的数据需求,近年来,我们也在这方面做了充分的工作:1、重视技术研发投入,提升自身技术能力,不断深化算法辅助能力,开发更为先进的工具和平台,全面助力公司规模化能力的提升;2、不断扩大技术人员团队,完善包括产品设计、客户需求对接、项目管理、交付验收等板块在内的技术人员体系建设;3、提升资源积累,公司已沉淀下近千个自有知识产权的数据集产品,拥有多场景、多语言覆盖能力,并在全球范围内建立了丰富的多语种语言学家团队资源及稳定合作的供应商、客户等上下游资源体系。
自新冠疫情爆发以来,各地区人员聚集受到不同程度的限制,对公司业务开展尤其是涉及在境外进行原料数据采集的项目产生直接影响;同时,一些欧美国家的客户至今都还是以居家办公为主,且境外的线下行业/学术展会都停办了,这些都对公司与客户的日常有效交流产生直接影响;上述因素叠加,就会对客户的需求释放、项目进展、以及收入确认产生直接影响。针对上述影响,公司已经开始实施了一些应对措施:(1)加强平台工具的远程化功能开发和部署,降低疫情对公司生产流程的影响;(2)扩大在美国的销售团队,改善本地化的客户商务沟通;(3)更大程度把握国内的机会,保持公司基本面稳定。
问:客户对训练数据是否有持续需求?
答:客户对训练数据本身的需求是会长期持续的。客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,如此周而复始。因此,客户对训练数据的需求是持续的,且随着应用AI技术的场景越来越多,各种场景的数据集需求会兴起,带来的是训练数据的需求会越来越大。
问:公司的业务是否存在规模效应?
答:公司业务是存在规模效应的,一方面随着公司在研发方面加大投入,自研平台的能力逐步提升,可以赋能数据处理过程中的人机协作朝着更加智能化的方向前进,这就使得公司进行更大规模的数据生产成为可能。同时,数据产品的积累、平台以及工具的研发,在公司业务规模逐渐上升的情况下,相关的研发费用、管理费用将被摊薄;
从成本端看,数据生产的成本还有很大的下沉空间,对于成本控制我们会在两方面进行持续投入:一方面是继续加大技术投入,采用更为合理的人机协同比例完成数据处理任务,降低人员投入,提高处理效率;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。
此外,数据集产品一直是我们公司所坚持的重点方向,公司开发大量通用型、复卖率高的标准化产品数据集,反复给公司带来利润,也能实现训练数据产品的规模化效应。
问:训练数据产品、定制服务对公司有怎样的意义?
答:拥有行业排名第一的自有知识产权训练数据产品集群是公司区别于众多竞争对手的显著优势,公司已沉淀下近千个自有知识产权的数据集产品,通过开发大量通用型、复卖率高的标准化产品数据集为公司的规模化和高利润率提供了保障。
训练数据定制服务是公司收入的重要来源,而且在提供训练数据定制服务过程中,公司会接触到各种类型的数据,帮助公司了解行业最新的技术路线和需求,同时,该等数据会在公司的采集加工平台上进行处理,对公司的算法提升和平台的工程化能力都提供了很好的学习资源,是研发迭代的较强助力。
问:产品数据集的生命周期多长?
答:就目前训练数据产品的销售情况看,平均生命周期大概在5年左右,有部分产品生命周期可达8-10年之久,比如公司早年建成的一个中文语音识别数据集,目前仍在销售,而且售卖范围很广,基本覆盖了目前市场上绝大多数主流的语音识别引擎。
问:训练数据定制服务的研发周期?
答:定制周期一般在6-12个月,具体取决于客户的需求、项目自身的复杂程度,一些大型外语种项目超过12个月也是存在的。
问:定制服务的需求,大概包含什么样的工序?如果是垂直场景的,要对该场景的know-how有积累?
答:具体要看客户的需求,有些是从文本设计开始,包括后续数据采集、标注等,面对这类客户需求,需要对应用场景有一定的know-how积累。公司以AI训练数据行业唯一一家获得最终优胜单位的身份参与了第一期工信部新一代人工智能产业创新重点任务,期间经过攻关,我们的应用场景已经积累到了20+种。例如智能家居的语音助手场景,公司在文本设计和采集方案部署的时候,需要理解语音助手在应用时对场景环境、近场远场、说话人的指令习惯、房屋的布局对声音收集的影响等各方面要素有充分的理解,并通过实验的方式确定最佳方案。
问:公司的核心竞争力是什么?
答:经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力主要体现在:
技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
供应链资源管理能力:公司拥有成熟的数据处理平台,解决了数据规模化过程中对产能、质量、成本几方面平衡的难题,同时通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为垂直行业客户和政府客户的客群拓展提供支撑。
往垂直行业拓展的能力:公司认为,垂直行业延伸是未来训练数据行业发展的方向,公司在平台研发和部署能力、数据安全能力、供应链资源能力、行业口碑和声望等方面都有较强的竞争力,为公司在行业领域的拓展上提供了先发优势。公司正在积极尝试往更多领域拓展,开发新的业务增长点。
问:研发、技术团队的构成?
答:我们的研发人员、技术人员分别构成了公司的两大部门-研发中心、数据业务中心。研发中心主要负责(1)公司的基础算法研究;(2)公司各种平台/工具的开发,目前公司开展业务所需的全流程平台/工具均是公司自行研发。数据业务中心主要负责公司训练数据产品的研发和训练数据定制服务的提供,在这个过程种,研发中心提供了重要的算法支撑、平台工具的支持。
问:公司不是仅仅提供数据标注服务,而是提供整体训练数据解决方案,那么在解决方案中的各个环节的技术难度如何?
答:首先训练数据集的设计和原料数据采集环节是存在相当的技术难度的,比如语音类采集,文本设计是否贴合实际场景、如何实现最小采集量且确保场景覆盖丰富度等因素均是设计和采集环节需要考虑和解决的;在视觉类采集方面,复杂的人像采集、物体影像采集,同样具有如何设计合理的数据浓度达到最小成本最高训练效果,如果是垂直行业数据集的采集,例如交通行业内的自动驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。
数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台实现机器的辅助标注,并在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。
公司在今年已经开始了大规模的研发投入、且该战略将会长期持续,以全面提升公司的算法能力、工程化能力、资源管理能力,坚持技术+资源的双轮驱动方针,保持和提升公司的竞争力。
问:训练数据相关的应用服务具体是什么内容?
答:公司基于生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果。具体内容包括:①依据客户需求,在客户通用算法模型的基础上,为客户定制开发特定语种/方言、应用领域的算法模型;②使用特定语种/方言、特定应用领域的训练数据,对客户的算法模型进行训练,使客户的算法模型实现语种/方言覆盖能力的拓展,满足其在特定行业、地区或者特定应用领域的运用需要;③客户负责研发/提供核心的算法模型,海天瑞声负责开发算法模型实现后续落地运用过程所需的用户界面、软件等,及相关的系统集成工作。
问:产品库在销售时,如何保护海天瑞声自身的知识产权?
答:公司对于产品数据集知识产权的保护主要通过以下几方面来实现:(1)在与客户前期商务谈判中,严格约定知识产权保护相关条款,明确双方权利义务,确定违约责任,形成有效的法律制约;(2)在数据交付过程,采用加密方式传输,防止数据的泄露和传播。此外,公司的客户通常为大型科技企业、科研院所等,其自身对知识产权保护的意识和措施也是很强的。
问:计算机视觉类的应用场景有哪些?是否包括了自动驾驶?公司在未来有哪些布局和规划?
答:计算机视觉类的应用场景广泛覆盖了OCR、人像、物体、自动驾驶等,其中自动驾驶和OCR领域的应用前景更为广阔。
在自动驾驶领域,这是目前各类技术公司、汽车公司都在重点投入的领域,公司近年来在这方面也进行了相当规模的研发投入,逐步建立了车载环境采集麦克风阵列、3D点云标注、2D-3D联合标注平台/工具研发团队等,并开始建立专门针对智能驾驶数据集的算法团队,同时在自有知识产权数据集的开发方面,也会持续建设、积累这方面的数据集产品。
公司在过去2-3年的时间里,陆续收到包括智能座舱等在内的语音类智能驾驶领域的数据需求,从去年开始,视觉方面的智能驾驶数据处理需求开始较多出现,目前业务当中所覆盖的应用类型涵盖了智能座舱、道路识别、道路规划等。当前,公司已经与国内几大造车新势力厂商、以及一些传统车企建立了合作。未来,公司将深度聚焦智能驾驶领域,加大研发投入,努力将其培养为一个新的主要营收增长点。
在OCR领域,公司一直在与全球最前沿技术拥有方合作,提供OCR数据采集与加工业务,随着OCR技术的普及,相信会有越来越多的客户开始进行技术落地和应用,随之而来的将是更为广阔的数据需求。
问:在往垂直行业(例如自动驾驶、金融等)切入的过程中,如何获得行业知识?
答:除了公司自身需要通过持续投入来确保以高效的方式获得行业知识外,其实客户也是我们获得相关垂直行业知识的来源之一。具体来讲,公司通过为客户提供定制服务这种机制能够直接从本就置身垂直行业当中的客户那里获得一手的行业知识,在这个过程中,逐步积累下来的经验、know-how会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平台面对各行各业的适配性有很大的提升,加强公司的数据处理能力,同时还可以最大程度地降低我们的试错成本。
问:如何做到全球超过160种语言的研究、以及全球性的多语种项目实施?
答:公司的全球语言拓展能力和多语种项目实施能力得益于以下几方面:(1)公司内部有十多人的语言研究团队,全球还有长期合作的语言学家团队,每一位语言学家擅长多种语言,这也是公司区别于其他同行业竞争对手的优势之一;(2)公司现有的全球性供应链体系保证了我们在面对客户的需求时快速、高效的在全球各地能够找到当地人员、以及成熟的当地供应商,组织项目的实施和开展。
问:公司客户粘性如何?客户转换成本如何?
答:我们认为,在面对客户时,不同供应商在数据质量、工期保证能力、客户需求响应能力、供应商资源管理能力、平台稳定性、成本等方面存在显著差异,而这些都是客户们在选择供应商时重点关注的,同时,长期的业务合作及综合资质能力也是客户考量的重要因素。从各方面符合和响应客户的诉求才能保证较高的客户粘性。在上述方面,海天瑞声的竞争优势较为明显。此外,在一些数据安全要求、准入门槛都相对较高的领域(例如政府数据、军工数据等),海天瑞声的综合竞争优势将更为明显。
问:成本结构里最大的部分是什么?如何能够持续性的优化成本结构?
答:公司最大的成本就是原料数据采购费用,即:采集、标注成本。一方面,公司通过继续加大研发投入的力度,全面提升公司的算法能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同,这样能够做大规模、提升效率、降低成本;另一方面是加强供应链资源管理能力,扩大资源供给,降低单位成本。
问:收入确认方式是什么样的?账期如何?
答:针对自有知识产权的数据集产品,一般在客户收到数据集后即可进行验收,也有部分客户在进行简单数据测试后验收;针对数据定制服务,一般是根据项目进度分阶段交付并验收。客户验收完成,我们即可确认收入。
根据公司内部信用制度,不同信用评级的客户给予不同信用期,最长的90个工作日,最短的30天。
问:标准产品数据集,在后续更新后,会免费再提供给客户吗?
答:对于产品数据集,面向客户的销售是一次性的,即客户收到数据集后可以重复使用(但不能转让给其他第三方)。如果我们后续对该产品数据集更新/扩充,我们会及时告知客户,若客户需要采购该部分更新/扩充数据,需要对该部分数据付费。
问:用AI算法技术降本增效,人机协作是否可以达到100%的比例、机器完全取代人的工作?
答:基于当今的人工智能技术原理,机器不可能完全代替人类对训练数据进行判断,因此人机协作追求的是机器作为人的“助理”,提高人工处理的效果和效率,降低数据处理成本。由于数据生产流程中工序较多,人机协作的效果不能一概而论,也并不是机器处理量大就一定代表协作效果好,因为数据质量是一切的前提。公司会在算法和工程化能力上投入较大研发力量,训练更多具有专项适配能力的模型,使算法覆盖率、数据处理速度等都能有较大的提升,得到最佳人机协作效果。
问:公司在垂直行业还有哪些会拓展?
答:根据目前市场情况,汽车行业,尤其是自动驾驶领域是公司现在及未来会重点布局的行业,通过加强自动驾驶领域的研发投入、建立专门的算法团队、与各大车厂保持紧密沟通,挖掘合作空间;
此外,那些信息化程度本来就很高、且对于向AI转型的需求和研发投入都比较强的行业,公司也会重点发展,如金融保险、政法行业等,公司自2019年以来与北京、杭州、深圳等地法院进行了一些尝试性合作,为其提供政法行业特点明显的训练数据服务和算法训练服务;此外,公司目前与多家商业银行和保险公司也在探讨场景化服务。
垂直行业延伸是未来训练数据行业发展的方向,公司在平台研发和部署能力、数据安全能力、供应链资源能力、行业口碑和声望等方面都有较强的领先力,预期将为公司在行业领域的拓展提供先发优势。
问:请简单介绍下公司三季度报告业绩概况。
答:2021年1-9月,实现营业收入1.31亿,较去年同期下降8.40%,由于境外新冠肺炎疫情的反复导致部分原料数据采集环节需在境外进行的项目工期延迟,进而导致数据交付或验收递延,另外,因部分客户的研发节奏安排,导致当期针对特定领域的训练数据定制服务采购量有所下降;
2021年1-9月,归属于上市公司股东的净利润为2,565.84万元,较去年同期下降50.48%,主要由以下几方面原因:(1)受境外新冠肺炎疫情反复的影响,部分原料数据采集环节需在境外进行的训练数据定制服务延期交付或验收、及部分境外客户订单延期,使2021年1-9月公司实现收入1.31亿元,同比下降8.40%,在毛利率基本稳定在68%左右的情况下,导致毛利较去年同期下降995.89万元。(2)根据公司技术驱动及产品驱动的定位,2021年1-9月公司进一步加大研发投入,使研发费增长1,042.24万元,同比增幅达36.41%。其中,在基础研发方面,算法及平台等研发人员数量显著增加,主要投入在智能驾驶及OCR智能标注技术及平台研发、语音智能标注技术研发、多语种语料设计平台升级等领域,使基础研发费显著增长;在产品研发方面,公司新增研发超过260个训练数据集产品,尤其在多语种语音数据集及计算机视觉数据集上,积累了更丰富的数据集资源。
问:根据公司目前与境外客户的对接,预计其2022年的数据采购需求将会是怎样的?
答:由于今年国外疫情的反复,部分国外客户的研发节奏放缓,使得其研发计划推迟。随着疫情逐步好转,国外客户的生产办公逐渐恢复,通过不断与客户对接,我们了解到一些国外客户已经开始部署下一步的研发计划,下一步我们将陆续与国外客户开始对接2022年的数据采购需求,随着国外客户进一步恢复到正常模式,相信公司境外收入会逐渐恢复到上升通道。
问:未来几年,公司业务增长点有哪几方面?
答:未来几年,公司预期业务能在以下几方面抓住机遇、有比较好的表现:
(1)随着新冠疫情的进一步好转,境外客户将陆续开始部署下一步研发计划,进而其数据采购需求将会有进一步提升,公司将相应在境外方面投入更多研发力度、资源,以最大程度地抓住此机遇;
(2)境内一些大客户从自身的发展战略看需要做国际化战略扩张,随之而来的是开始在多语种领域进行拓展,而公司在多语种数据集产品及定制服务方面都有多年的积累,此外,公司在数据质量、需求对接、项目响应能力等方面都有着较为显著的竞争优势;
(3)作为一个新领域,智能驾驶业务将是公司着力发展的一个方向,今年我们也看到客户在这个领域的需求逐渐爆发,相信未来也会有一个良好的增长趋势。
问:目前国内同行业的竞争状况如何?尤其是在智能驾驶领域?
答:近期,随着《数据安全法》、《个人信息保护法》、《网络数据安全管理条例(征求意见稿)》等几个与数据安全相关的法律法规的落地、征求意见的发布,对整个行业的健康发展及海天瑞声自身都是一个利好;法律体系的完善有利于规范行业行为,提高行业门槛、净化行业乱象,从而促进行业的健康发展,从公司角度而言,这与公司多年来在数据合规建设方面的努力是一致的,以上这些都将使得公司处于更加有利竞争地位。
在智能驾驶领域,公司也进行了相当规模的研发投入,逐步建立了车载环境采集麦克风阵列、3D点云标注、2D-3D联合标注平台/工具研发团队等,并开始建立专门针对智能驾驶数据集的算法团队,同时积累自有知识产权的数据集产品。以上这些使得公司在这个全新领域处于有利竞争地位。
同时,目前公司是国内唯一一家上市的人工智能训练数据企业,良好的企业形象、数据服务能力、健全的数据安全管理体系使得公司能够在一些特殊垂直领域凸显更为明显的优势。
问:关于智能驾驶业务,在车外数据这部分,数据来源有哪些?海天瑞声在这方面有哪些优势?
答:总体来讲,车外数据来源可以分为两类:一部分是由海天瑞声通过自主设计、搭建路采方案,然后组织具备相关资质的供应商来进行上路采集,比如摄像头拍摄的图片、视频;另一部分则是由客户提供的真实数据,比如3D雷达点云数据。
智能驾驶车外业务领域的数据采集难度相对较高,而海天瑞声多年来积累了丰富的项目管理经验以及在供应链资源上的积累都能够起到积极作用;在数据标注环节,通过加大研发投入的力度,全面提升公司的算法能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同,这样能够做大规模、提升效率、降低成本。
问:智能驾驶业务方向客户对于真实数据、模拟(即抽样)数据的需求分别是什么样的?
答:在客户的AI应用或AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,当客户进行产品功能或语种的拓展时,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代,周而复始。
聚焦到智能驾驶领域,公司具备一定的产品化数据集的积累,如一些车载语音数据集、道路数据集等,这些都会以模拟数据集的方式交付给客户;另外,客户对真实数据的需求也会更多一些,尤其是车外路测数据,公司会提供数据处理服务。
问:近期数据安全相关法律法规的逐步落地,对海天带来哪些影响?
答:海天瑞声自成立之初就把数据安全、数据合规视为生命线,在这方面的投入是伴随着这么多年业务发展的,且已经形成了较为成熟的安全、合规框架和体系。目前,公司符合GDPR、数据安全法、个人信息保护法等国内国外主流法律的要求,并通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证等。因此,海天瑞声事实上已经在很大程度上满足了这些新出台的法律法规的要求,这些法律法规的落地实施不会再对公司产生显著的成本,但其对训练数据产业的健康发展将会产生深远的影响,有利于净化、规范行业行为,提高行业门槛,为公司的发展创造更为有利的条件。
问:公司的定制服务的定价模式是什么样的?
答:定制服务又可以分为:定制数据集和数据加工服务。定制数据集生产流程跟产品数据集类似,但数据集知识产权归属于客户;数据加工服务,是由客户提供原料数据,海天瑞声负责数据加工,将加工后的数据集交付给客户,供其进行客户自身AI产品的算法训练。
定制数据集,按照单价(例如语音小时单价、每张图片单价、视频小时单价、每行文本单价等)乘以量(例如语音小时数、图片张数、视频小时数、文本行数等)的逻辑进行定价;数据定制服务,则是按照数据加工的有效工时定价,价格的高低与项目的复杂程度紧密相关。
问:客户为什么把数据处理需求交给海天瑞声这样的公司,其背后的逻辑是什么?
答:从根源上来说,这是行业专业化分工的体现,人工智能企业或者一些专门的算法公司可能更多的聚焦于其自身的AI产品或者算法研究,客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。相较于客户自建团队或者其他同行业企业,海天瑞声近十年来深度服务了众多大型科技公司、头部人工智能企业、科研院所等,获得的信息是广泛的,沉淀下了极为丰富的项目经验,同时积累了大量的know-how,对训练数据的理解更广、更深刻,同时我们搭建了成熟的数据算法平台,通过更智能的人机协作实现降本增效,并且能保证向客户交付高质量的工程化训练数据,为客户提供更高性价比的训练数据产品/服务。
问:老客户、新客户的收入贡献如何?
答:通常来讲,新客户与老客户收入占比大约是1:9,我们Top20客户对收入的贡献较大,这些客户大多都是大型科技公司、头部AI企业,他们在算法研究上的投入是大量且持续的,所以对于数据的需求就比较稳定。相对而言,新客户的需求是需要逐步释放出来的,随着合作的深入,新客户会在不同业务领域释放更多、且类型迥异的数据需求,如此循环,新客户也会沉淀下来成为老客户。
问:智能驾驶业务的客户有哪些?目前的订单规模大概多少?
答:智能驾驶是目前各类汽车公司、技术公司、芯片公司都在重点投入的领域,当前公司已经与国内几大造车新势力厂商、一些传统车企、部分智能驾驶算法技术公司建立了合作,换言之,只要是有智能驾驶算法研究部门的公司客观上都存在训练数据需求。如车内座舱类数据,客户需要通过使用训练数据来训练其语音识别、语音合成算法模型,进而支撑其语音交互产品或应用;车外数据,则会被用于行车决策、泊车决策等等。订单规模与客户自身的需求相关,从十几万到几百万不等。
智能驾驶业务对于公司来讲是一块新的业务,从客群到技术到交付都有自身的行业特征和逻辑,公司今年与部分行业头部企业建立了合作关系,也正在进行智能驾驶行业的系统化梳理,希望通过自身在数据处理平台、数据质量、需求对接、项目响应能力、供应链资源管理能力的积累,深入与现有客户的合作,并扩展更多的客户。
问:公司的竞争对手主要包括哪些?公司与其他竞争对手有哪些差别?
答:国内的主要竞争对手是一些品牌数据提供商,如慧听、标贝等;国外的主要竞争对手是Appen。
与竞争对手相比,海天瑞声自身还是存在显著的竞争优势的,如丰富的产品积累、成熟的数据处理技术和平台、全球化的供应链管理能力等等。另外,从公司创业历程看,由于长期与国际性科技企业合作,对数据安全和合规的重视是深入到公司运作的方方面面的。而数据安全和合规是需要投入较高的成本建设的,在日益完善的法律环境下,这方面的投入为公司带来了新的竞争壁垒,也将会为公司未来在垂直行业和政企业务拓展形成有利优势。
问:公司是否是一家劳动密集型企业?
答:站在整个行业的角度来看,原料数据的采集过程中一大部分被采集对象就是人,从这个角度来说,如果离开了人这个要素,则整个人工智能都无从谈起;关于数据标注/处理环节,在现有的全球人工智能技术路线下,人机协作的模式是主流、且会朝着更加智能化的方向发展来提升机器处理数据的效率、减少人的参与程度,但因为其基础是要依赖人类的先验知识来教会机器去对各类语言现象、视觉现象、文本现象进行识别、判断、理解,所以这个过程是不可能摆脱人的因素的。但可以确定的是,随着算法的逐步发展,会逐步降低对人的依赖,进而提升效率、降低成本,而这也正是海天瑞声努力的方向之一。
如上所述,训练数据不可能离开人这个重要要素,但这不代表海天瑞声是一家人力密集型企业,相反,公司全职员工数量在2020年底刚刚突破150人、预计到今年年底突破200人,如此的团队体量之所以能够支撑现有业务规模,主要就是基于比较有竞争优势的研发能力、技术能力,以及全球化的供应链资源管理能力,因此公司是一家以技术+资源为核心驱动力的企业。
问:公司是否是一家全球性公司?
答:首先,从客户的角度来讲,在新冠疫情爆发之前,境外收入稳定在4成以上,而且境外许多超大型科技公司(如微软、亚马逊、三星等)都是公司多年的稳定客户,未来,公司也会大力拓展海外市场,进一步拓展海外研发、团队、业务。
其次,从业务实施的角度看,公司覆盖160多种语言/方言,本地化实施能力遍布几十个国家,公司的供应链系统,即采标资源体系是全球化的体系。
问:公司数据集产品的价格走势如何?
答:一般来讲,数据集产品在生产出来后,为了保证数据集自身的平衡程度,通常不会做大规模的更新、拓展,而是在标注类型方面做一些完善或者进行小规模的扩建调整。如果判断有新的市场趋势,公司会研发新的数据集去覆盖。因此,每个数据集都是有生命周期的。在这个周期之内,价格通常会随时间推移而呈现下降的趋势,而在这个过程中,那些竞争力较强的数据集会在相当长的时间保持价格的竞争力,其价格下降趋势会较为缓慢、甚至在一定时间内几乎不下降。因此,价格的调整是根据数据集的前瞻性、稀缺性、市场供需关系等各方面因素决定的;
北京海天瑞声科技股份有限公司的主营业务为训练数据的研发设计、生产及销售业务。公司的主要产品有数据资源定制服务、数据库产品、数据资源相关的应用服务;公司自2007年至今连续荣获“国家高新技术企业”及“中关村高新技术企业”称号,2018年被评为国家规划布局内重点软件企业。公司是“中国人工智能产业发展联盟”、“中国语音产业联盟”的理事单位,参与了行业标准的起草工作,在人工智能数据库架构设计、开发标准、质检评测等领域,以专业性和创新性获得了行业的普遍认可。公司近年来获得了2017年中国信息协会、信息化观察网评选的“年度人工智能数据服务领域领军企业”;2018年中国语言产业联盟颁发的“智能语音创新大赛行业先锋奖”;2018年中国信息协会、信息化和软件服务网颁发的“2018年人工智能行业最佳产品”等多项国内外人工智能领域奖项。
调研参与机构详情如下:
参与单位名称参与单位类别参与人员姓名