吴恩达:归来,大数据
发布时间:2025-10-31
但对许多广泛应用程序来问道,编码—形式语言处理的系统,从未基本消除,不时会踏入大的新发展。因此依然形式语言处理的系统固定,寻觅加以改进资料的新方法,才时会来得必需率。
当我最开始和安这件事的时候,也有人会举手赞成:我们从未按照“套路”继续做了20年,直至在凭直觉继续做什么事,是时候把它变成门系统设计者的工程学门了。
“以资料为的之中心的AI”远比数家母公司或一群研究社会活动技术人员要大得多。当我和同事在NeurIPS上组织了一个“以资料为的之中心的AI”研讨时会时候,我对不止席的著者和公开发表演问道者的数目沮丧极为高兴。
IEEE:大多数母公司只要少量资料,那么“以资料为的之中心的AI”如何希望他们?
吴恩达:我曾用3.5亿张影像实现了一个人脸管理系统设计者,你或许也经常想起用数百万张影像实现美感系统设计者的故事。但这些影响力也产物下的的系统,是很难只用50张页面实现系统设计者的。事实证明。如果你只有50张高品质的页面,仍然可以消除极为有价值的进去,例如理由系统设计者检测。在许多大型跨国企业,大资料集这不依赖于,因此,我这不认为迄今为止不必将均面性“从大资料集之中于到高品质资料”。其实,只要保有50个好资料(examples),就所能向形式语言处理解释你希望让它求学什么。
吴恩达:运用于50张页面操练什么样的建模?是阶段性大建模,还是均新的建模?
吴恩达:让我讲到一下Landing AI的社会活动。在为大厂继续做美感检测时,我们经常运用于操练建模,RetinaNet,而预操练只是其之中的一小部份。其之中来得难的弊端是缺少开发计划工具,使大厂尽确实挑选并以有所相同的作法标上不止正确的用于阶段性的影像集。这是一个极为也就是说的弊端,无论是在美感、NLP,还是音位广泛应用领域,甚至连标上技术人员也不主动手动标上。在运用于大资料时,如果资料参差不齐,常见的解决问题作法是获取大量的资料,然后用迭代同步进行少于解决问题。但是,如果尽确实开发计划不止一些开发计划工具标上资料的相同之处,并缺少极为具有系统性的新方法加强资料的差异性,这将是一个获取高机动性系统设计者的来得必需的新方法。
例如,如果你有10,000张页面,其之中每30张页面一组,这30张页面的标上是不一致的。我们所要继续做的什么事之一就是设立开发计划工具,尽确实让你注目到这些不一致的地方。然后,你就可以极为迅速地重新标上这些影像,使其越发一致,这样就可以使机动性得到和安高。
IEEE:您这不认为如果尽确实在操练同一时间来得好地设计者资料,那这种对高品质资料的注目是否能希望消除资料集的错误弊端?
吴恩达:很有确实。有很多研究社会活动技术人员从未指不止,有错误的资料是导致系统设计者不止现错误的众多因素之一。其实,在设计者资料各个方面也从未有了很多希望。NeurIPS研讨时讲到话,Olga Russakovsky就这个弊端继续做了一个令人兴奋的公开发表演问道。我也极为讨厌Mary Gray在时讲到话的公开发表演问道,其之中和安到了“以资料为的之中心的AI”是框架的一部份,但这不是框架的均部。像Datasheets for Datasets这样的新开发计划工具似乎也是其之中的最主要部份。
“以资料为的之中心的AI”赋予我们的弱小开发计划工具之一是:对资料的单个闭包同步进行工程化的技能。现实一下,一个时是的机器求学系统设计者在大部份资料集上的乏善可陈还差强人意,却只在资料的一个闭包上消除了错误。这时候,如果要为了和安高该闭包的机动性,而改变整个形式语言处理的系统,这是远比难于的。但是,如果能仅对资料的一个闭包同步进行设计者,那么就可以来得有系统性的消除这个弊端。
IEEE:您问道的资料工程说明来讲到是什么意为?
吴恩达:在计算机广泛应用领域,资料去除很最主要,但资料去除的作法经常需人工手动消除。在算不止机美感之中,有人确实时会通过Jupyter notebook将影像可视化,来推测并复建弊端。
但我对那些可以解决问题较大资料集的开发计划工具感兴趣。即使在标上很凌乱的只能,这些开发计划工具也能加速必需地将你的冲动吸纳到资料的单个闭包上,或者加速将你的冲动引不止100个预选之中的一个组之中,在那里利用来得多资料时会来得有希望。利用来得多的资料经常是有希望的,但如果所有社会活动都要利用大量资料,确实时会极为比起。
例如,我有次推测,当文化背景;还有摩托车音爆时,有一个音位管理系统设计者的乏善可陈时会很差。探究了这一点,我就可以在摩托车音爆的文化背景下利用来得多的资料。而不是所有的社会活动都要利用来得多的资料,那样解决问题慢慢地时会极为比起且繁复。
IEEE:那运用于还原资料时会是一个好的框架吗?
吴恩达:我这不认为还原资料是“以资料为的之中心的AI”开发计划工具箱之中的一个最主要开发计划工具。在NeurIPS研讨时讲到话,Anima Anandkumar继续做了一个关于还原资料的惊艳公开发表演问道。我这不认为还原资料的最主要功用,不仅仅乏善可陈在预解决问题之中增加求学迭代资料集。我希望碰到来得多的开发计划工具,让开发计划者运用于还原资料转化踏入机器求学插值开发计划闭环之中的一部份。
IEEE:您的意为是还原资料可以让你在来得多的资料集上希望法建模吗?
吴恩达:其实。比方问道,笔记型电脑上有许多相同子类的理由,如果要检测笔记型电脑外壳的理由,那确实时会是了无、凹痕、坑痕、物料变色或者其它子类的瑕疵。若你操练了建模,然后通过测量误差归纳推测整体上它的乏善可陈差强人意,但在坑痕上乏善可陈得很差,那么还原资料的转化就可以让你以来得有系统性地消除这个弊端。你可以只为坑痕类别转化来得多的资料。
IEEE:您可以举例说明问道明吗?若数家母公司推测Landing AI,并问道他们在美感检测各个方面有弊端时,您将如何问道服他们?您又将问道明怎样的框架呢?
吴恩达:还原资料转化是一个极为弱小的开发计划工具,但我有时候时会先希望法许多来得简便的开发计划工具。比如问道用资料增强来加强标记的差异性,或者只是允许一些公司利用来得多的资料。
当客户推测我们时,我们有时候时会先就他们的检测弊端同步进行交谈,并提示一些影像,以检验该弊端在算不止机美感各个方面是否可行。假若可行,我们时会允许他们将资料上带到LandingLens模拟器。我们有时候根据“以资料为的之中心的AI”新方法向他们缺少决定,并希望他们对资料同步进行标上。
Landing AI注目的均面性之一是让制做跨国企业自己继续做机器求学的社会活动。我们的很多社会活动都是为了硬件的四通八达运用于。通过对机器求学的开发计划插值,我们为客户缺少了如何在模拟器上操练建模,以及如何加以改进资料标上弊端来和安高建模的机动性等很多决定。我们的操练和硬件在此过程之中时会直至发挥作用,直到将操练好的建模部署到化工厂的边缘设备上。
IEEE:那您如何防范不断叠加的需求?如果一些公司牵涉到叠加或是化工厂的照明条件牵涉到叠加,在这样的只能,建模能适应吗?
吴恩达:这要因大厂而异。在很多只能都有资料偏转,但也有一些大厂从未在同一的化工厂上开始运行了20年,几乎不能什么叠加,所以在期望5在短期内他们也不期望牵涉到叠加,环境稳定什么事就变得容易了。对于其他大厂,在不止现较大的资料偏转弊端时我们也时会缺少开发计划工具同步进行标上。我推测使制做业的客户尽确实自力不对资料、重新操练和来得新建模真是很最主要。比如现在是美国政府的上午3点,一旦不止现叠加,我希望他们尽确实自行立即调整求学迭代,以必需开始运行。
在消费类硬件在线之中,我们可以操练少数机器求学建模来为10亿其他用户服务。而在制做业,你确实有10,000 大厂自带10,000 个计算机建模。所面临的关键时刻是,Landing AI 在不雇10,000名机器求学专家的只能,如何够这一点?
IEEE:所以为了和安高品质,不必授权其他用户自己同步进行建模操练?
吴恩达:是的,无论如何!这是一个均大型跨国企业的AI弊端,不仅仅是在制做业。例如在卫生广泛应用领域,每家所医院电子病历的格式略有相同,如何操练自带自己的AI建模?期望每家所医院的IT技术人员重新新发明形式语言处理的系统是不本质的。因此,不必实现开发计划工具,通过为其他用户缺少开发计划工具来设计者资料和传达他们的广泛应用领域知识,从而使他们尽确实实现自己的建模。
IEEE:您还有什么需读者探究的么?
吴恩达:即使如此十年,计算机最大的彻底改变是最深处求学,而接下来的十年,我这不认为时会转向以资料为的之中心。随着形式语言处理的系统的开花结果,对于许多也就是说广泛应用来问道,瓶颈将时会依赖于于“如何获取、开发计划所需的资料”。以资料为的之中心的AI在新社区保有更大的能量和吸纳力,我希望能有来得多的研究社会活动技术人员申请加入!
雷峰网
。杭州看白癜风权威医院安顺白癜风医院哪家好
湘潭治疗白癜风医院费用

-
盛屯矿业集团股份有限公司 关于召开2021年第五次临时股东会提示性公告
本Corporation校董会及全体总裁确保本应于内容不存有任何事实历史文献、误导性详述或者不小都是,并对其内容的真实性、准确性和可用性承担个别及连带责任。 盛屯矿业母Corpor