我们喜欢数据 --大量的数据!日复一日,我们利用自主创建的数据平台“Q”工作。就像飞蛾扑火一样,我们被新的数据工作方式所吸引,被该创新领域的创业公司所吸引。
自然而然地,我们的目光聚焦在数据标注这个话题上,或者说,我们关注如何构建数据,使其能够被AI充分利用,让机器拥有耳朵、眼睛和大脑。耳朵可以听到音乐、语音和视频数据;眼睛可以看到图像、文本和视频;大脑可以思考,能够识别和理解它所收到的数据的背景情况,例如孩子睡觉或狗狗玩耍的情况。
当然,这不是一个新的话题。我们关注数据标注和标签已经有一段时间了,尤其是围绕自动驾驶及其对训练数据样本的巨大要求。似乎在一夜之间,自动化对数据的要求成为了一个大问题,随后,一些公司以独角兽的身价筹集到了数亿美元投资。
以未来汽车为例,自动驾驶技术需要足够的训练数据样本支撑,以实现高水平的自动化,尤其对于代表真实世界情况或边缘案例的数据。
第一代的数据标注往往需要成千上万的人手动标注。商业模式是基于标注的复杂性、图像的数量和期望的准确性。第一代的标注平台是为人类在技术支持下手动操作而建立的。第二代是基于自动化,使人类能够以SaaS的商业模式建立应用程序。将标注任务分离成两部分,即模式检测和意义分配,就是自动化的一部分。
Dataloop的角色由此登场。Dataloop是第二代数据标注的领导者,我们很高兴能与Alpha Wave Global一起领投、Amiti、F2 VC和OurCrowd等现有投资者共同参与的3300万美元的B轮融资。
产品和技术
Dataloop的平台能够将AI扩展到生产运营。该平台由三个关键因素组成。
首先,该平台实现了非结构化数据管理,这意味着客户可以对复杂的、资源密集型的数据进行探索、搜索、过滤和可视化。数据管理功能为所有训练数据样本提供了一个可信来源。
第二,Dataloop为各种类型的数据提供标注工具,包括图像、视频、音频、文本和激光雷达,Dataloop将这些工具称为数据应用,并将很快发布新的数据应用,通过几次点击即可为海量的数据项进行标注。这些标注工具基于现成的或客户的模型,利用AI辅助标注。
第三,Dataloop平台提供数据工作流,可以通过无代码拖放界面建立生产和自动化工作流程。
Dataloop平台的主要不同之处在于其开发者优先的方式,它包括了一个非常模块化的设计,与ML堆栈中的其它解决方案进行了很好的整合(与现代数据堆栈的概念同步),使第三方应用程序和模型可以在平台上得以开发和运行。
数据管理模块往往是客户选择Dataloop的一个关键原因。Dataloop还刚刚发布了其第二代数据管理引擎,能够实时、以亚秒级的查询响应速度,处理每个单一数据集1亿个条目,这对直接使用数据的数据工程师来说至关重要。
它为什么重要?
数据管理和标注能力对于建立新的、基于AI的产品和公司来说至关重要。例如,Snowflake在其2022年数据科学报告中指出,到2025年,世界上80%的数据将是非结构化的,而今天只有0.5%的数据被分析过。仅数据的准备工作:如数据加载、清理和可视化就占了数据科学家80%的工作时间(Anacoda),而每个数据科学家需要有1-3个数据工程师一起工作。
我们看好这一切,这是一个不断增长的大市场,它的一个真正痛点就是人才缺乏及对自动化的需求。自动化等于投资回报率。
Dataloop的创立
Dataloop是一家以色列公司,由Eran Shlomo(CEO)、Avi Yashar(CPO)和Nir Buschi(CBO)于2017年创立。在创建Dataloop之前,Eran和Avi在英特尔工作了很多年,并共同参与了许多创新项目。更多的故事在这里:https://dataloop.ai/book/intro/。
两人之前也都在初创公司工作过,真正了解初创公司和大公司的世界。Nir在遇到Eran和Avi之前,曾是两家技术公司的创始人,并在不同业务发展岗位上工作了10多年。
今天, 超过60位来自不同背景的能人在Dataloop工作。事实上,Dataloop可能是我们在很长一段时间内看到的最多样化的公司之一。
从乡村黑客到创新国家核心科技圈精英
Dataloop 首席执行官 Eran 进入以色列科技生态圈的过程很不寻常。他出生在以色列农村的一个牛羊养殖户家庭,当时家庭电脑还没有普及。
9岁时,母亲看到孩子对电脑兴趣甚浓,便用了家里两年的积蓄给他买了第一台Commodore电脑,与电脑一同而来的还有一本厚厚的编程书。
11岁时,Eran已经是一个自学成才的程序员了,开始编写完整的应用程序,从乡村到创新国家核心科技圈的道路由此铺就。这个小小的、意想不到的事件,对他的人生意义非凡,孕育了一位谦逊的技术远见者。
我们很荣幸与Dataloop的合作扬帆启程!
点击阅读TechCrunch新闻