(资料图片)
根据谷歌的声明,近年来3D传感器(如激光雷达、深度传感相机和雷达)的增长导致需要一种场景理解技术,可以处理这些设备捕获的数据。谷歌认为,这种需求技术可以使使用这些传感器的机器学习系统(如自动驾驶汽车和机器人)在现实世界中导航和操作,从而在移动设备上创造增强的增强现实体验。
搜索引擎提供商Google指出,计算机视觉最近在理解3D景观方面取得了很好的进展,包括用于移动3D对象检测和透明对象检测的模型。然而,该公司在其博客文章中指出,由于工具和资源有限,可能很难在现场操作。
科技巨头谷歌发布了TensorFlow 3D,这是一个模块化、高效的库。旨在为TensorFlow带来三维深度学习功能,从而进一步开发和提高对三维场景的理解,为感兴趣的研究者降低进入壁垒。
技术公司开发的TensorFlow 3D库允许更广泛的研究社区开发、训练和分发尖端的3D场景理解模型。此外,新的数据库提供流行的交易和损失功能、数据处理工具、模型和指标。
TF 3D还可以启用其他潜在的应用,例如3D对象形状预测、点云记录和点云凝结。此外,它为训练和评估标准三维场景洞察数据集提供了统一的数据集功能和配置。
谷歌在一篇博客文章中宣布的新图书馆目前支持Waymo Open、ScanNet和Rio数据集。但是,用户可以自由地将其他流行的数据集(如NuScenes和Kitti)转换为类似的格式,并在预先存在的或定制的管道中使用它们。
谷歌还指出,用户可以使用TF 3D进行各种3D深度学习研究和应用,并通过快速构建原型和尝试新想法来实现实时推理系统。
想了解更多谷歌打造的TensorFlow 3D,从而进一步开发和提高对3D场景的理解,可以访问谷歌发布的关于这个话题的博文。