主页 > 新闻 > 文章正文
新闻

bitpie和imtoken

发布时间:2023-10-14 21:42:56

bitpie和imtoken数据枯竭引发AI危机:模型崩溃如何解决?7月18日消息,比大更大的AI语言模型成为当今AI领域的热门话题,似乎再没有什么比它更为恰当的形容了。大型模型的参数规模不断扩大,从十亿、百亿到千亿,训练AI所需的数据量也呈指数级增长。以OpenAI的GPT为例,从GPT-1到GPT-3,训练数据集的规模从4.5GB急剧增长至570GB。不久前,由Databricks举办的Data+AI大会上,a16z创始人马克·安德森认为,互联网在过去二十多年积累的海量数据是新一轮AI浪潮兴起的重要原因,因为这些数据为AI训练提供了可用的素材。然而,尽管网民在网络上留下了大量有用或无用的数据,对于AI训练来说,这些数据可能即将见底。人工智能研究和预测组织Epoch发表的一篇论文预测,高质量的文本数据将在2023年至2027年之间消耗殆尽。尽管研究团队承认分析方法存在严重局限性,模型的不准确性较高,但很难否认AI对数据集的消耗速度令人担忧。当人类数据用尽后,AI训练不可避免地将依赖于AI自身生成的内容。然而,这种"内循环"会带来巨大挑战。最近,来自剑桥大学、牛津大学、多伦多大学等高校的研究人员发表的论文指出,使用AI生成的内容来训练AI会导致新模型的崩溃。那么,为什么使用"生成数据"来训练AI会导致模型崩溃?是否还有拯救的办法呢?研究人员在名为"递归的诅咒:用生成数据训练会使模型遗忘"的论文中指出,"模型崩溃"是几代模型退化的过程。在早期的模型崩溃中,模型会逐渐失去对原始数据分布的理解,也就是"干净的人类数据"。在晚期阶段,模型会将几代模型对原始数据分布的错误认知纠缠在一起,进而扭曲对现实的认知。研究人员首先对小样本模型GMM(高斯混合模型)和VAE(变量自动编码器)进行了训练。以GMM为例,他们观察到模型在开始几十次迭代时对数据的拟合非常好。然而,随着迭代的进行,模型对数据分布的理解开始出现错误。当迭代达到2000次时,模型已经收敛到一个非常小的点,意味着模型开始稳定地输出错误的答案。为了验证预训练对实验结果的影响,研究人员还在1.25亿参数的LLM(大语言模型)OPT-125m上进行了实验,数据集来自维基百科的wikitext2。通过实验结果可以看出,到了第9代模型时,输出的内容已经变得毫无意义。论文的作者之一伊利亚·舒迈洛夫表示,随着时间的推移,人工智能生成的数据中的错误会不断累积,主要模型在接受这些数据训练后,会对现实产生更加扭曲的认知。那么,为什么会出现模型崩溃呢?模型崩溃的主要原因在于AI并非真正的智能,其所展现的近似"智能"能力实际上是基于大量数据的统计学方法。基本上,所有无监督机器学习算法都遵循着一个简单的模式:给定一系列数据,训练出一个能够描述这些数据规律的模型。在这个过程中,模型更容易关注出现概率较高的数据,而对于出现概率较低的数据则容易低估。举个例子,假设我们需要记录100次掷骰子的结果来计算每个面出现的概率。理论上,每个面出现的概率是相等的。然而,在实际生活中,由于样本量较小,可能会出现某些面的出现次数比较多的情况。但是对于模型而言,它学习到的数据就是某些面出现的概率较高,因此它会更倾向于生成更多的这些面的结果。那么,有没有办法解决模型崩溃的问题呢?事实上,并不是所有的希望都已经破灭。当人类数据越来越稀缺时,AI训练仍然有机会,有一些方法可以解决数据枯竭的问题:首先是数据"隔离"。随着AI的不断强大,越来越多的人开始使用AI辅助工作,因此可用的"干净人类数据集"可能会越来越难以获取。为了解决模型崩溃问题,研究团队提出了一种"先行者优势"的方法,即将干净的人工生成数据源与AI生成的内容分离开来,以防止AIGC对干净数据的污染。这需要社区和公司的共同努力,共同保护人类数据免受AIGC的污染。其次是使用合成数据。实际上,专门基于AI生成的数据已经被广泛用于AI的训练。对于一些从业者来说,目前关注AI生成数据导致模型崩溃的担忧可能有些夸大其词。光轮智能创始人谢晨表示,国外的研究论文中对于AI生成数据导致模型崩溃的实验方法并不准确。无论是人类数据还是AI生成的数据,都存在可用性和不可用性的区别。因此,关键在于建立一套有效的体系来区分AI生成的数据中的可用和不可用部分,并根据训练后模型的效果进行反馈。OpenAI使用合成数据进行模型训练已经成为AI行业内的共识。总之,尽管人类数据面临枯竭的问题,但AI训练并非没有解决办法。通过数据的隔离和合成数据的使用,可以有效克服模型崩溃的问题,确保AI的持续发展。bitpie和imtoken数据枯竭引发AI危机:模型崩溃如何解决?7月18日消息,比大更大的AI语言模型成为当今AI领域的热门话题,似乎再没有什么比它更为恰当的形容了。大型模型的参数规模不断扩大,从十亿、百亿到千亿,训练AI所需的数据量也呈指数级增长。以OpenAI的GPT为例,从GPT-1到GPT-3,训练数据集的规模从4.5GB急剧增长至570GB。不久前,由Databricks举办的Data+AI大会上,a16z创始人马克·安德森认为,互联网在过去二十多年积累的海量数据是新一轮AI浪潮兴起的重要原因,因为这些数据为AI训练提供了可用的素材。然而,尽管网民在网络上留下了大量有用或无用的数据,对于AI训练来说,这些数据可能即将见底。人工智能研究和预测组织Epoch发表的一篇论文预测,高质量的文本数据将在2023年至2027年之间消耗殆尽。尽管研究团队承认分析方法存在严重局限性,模型的不准确性较高,但很难否认AI对数据集的消耗速度令人担忧。当人类数据用尽后,AI训练不可避免地将依赖于AI自身生成的内容。然而,这种"内循环"会带来巨大挑战。最近,来自剑桥大学、牛津大学、多伦多大学等高校的研究人员发表的论文指出,使用AI生成的内容来训练AI会导致新模型的崩溃。那么,为什么使用"生成数据"来训练AI会导致模型崩溃?是否还有拯救的办法呢?研究人员在名为"递归的诅咒:用生成数据训练会使模型遗忘"的论文中指出,"模型崩溃"是几代模型退化的过程。在早期的模型崩溃中,模型会逐渐失去对原始数据分布的理解,也就是"干净的人类数据"。在晚期阶段,模型会将几代模型对原始数据分布的错误认知纠缠在一起,进而扭曲对现实的认知。研究人员首先对小样本模型GMM(高斯混合模型)和VAE(变量自动编码器)进行了训练。以GMM为例,他们观察到模型在开始几十次迭代时对数据的拟合非常好。然而,随着迭代的进行,模型对数据分布的理解开始出现错误。当迭代达到2000次时,模型已经收敛到一个非常小的点,意味着模型开始稳定地输出错误的答案。为了验证预训练对实验结果的影响,研究人员还在1.25亿参数的LLM(大语言模型)OPT-125m上进行了实验,数据集来自维基百科的wikitext2。通过实验结果可以看出,到了第9代模型时,输出的内容已经变得毫无意义。论文的作者之一伊利亚·舒迈洛夫表示,随着时间的推移,人工智能生成的数据中的错误会不断累积,主要模型在接受这些数据训练后,会对现实产生更加扭曲的认知。那么,为什么会出现模型崩溃呢?模型崩溃的主要原因在于AI并非真正的智能,其所展现的近似"智能"能力实际上是基于大量数据的统计学方法。基本上,所有无监督机器学习算法都遵循着一个简单的模式:给定一系列数据,训练出一个能够描述这些数据规律的模型。在这个过程中,模型更容易关注出现概率较高的数据,而对于出现概率较低的数据则容易低估。举个例子,假设我们需要记录100次掷骰子的结果来计算每个面出现的概率。理论上,每个面出现的概率是相等的。然而,在实际生活中,由于样本量较小,可能会出现某些面的出现次数比较多的情况。但是对于模型而言,它学习到的数据就是某些面出现的概率较高,因此它会更倾向于生成更多的这些面的结果。那么,有没有办法解决模型崩溃的问题呢?事实上,并不是所有的希望都已经破灭。当人类数据越来越稀缺时,AI训练仍然有机会,有一些方法可以解决数据枯竭的问题:首先是数据"隔离"。随着AI的不断强大,越来越多的人开始使用AI辅助工作,因此可用的"干净人类数据集"可能会越来越难以获取。为了解决模型崩溃问题,研究团队提出了一种"先行者优势"的方法,即将干净的人工生成数据源与AI生成的内容分离开来,以防止AIGC对干净数据的污染。这需要社区和公司的共同努力,共同保护人类数据免受AIGC的污染。其次是使用合成数据。实际上,专门基于AI生成的数据已经被广泛用于AI的训练。对于一些从业者来说,目前关注AI生成数据导致模型崩溃的担忧可能有些夸大其词。光轮智能创始人谢晨表示,国外的研究论文中对于AI生成数据导致模型崩溃的实验方法并不准确。无论是人类数据还是AI生成的数据,都存在可用性和不可用性的区别。因此,关键在于建立一套有效的体系来区分AI生成的数据中的可用和不可用部分,并根据训练后模型的效果进行反馈。OpenAI使用合成数据进行模型训练已经成为AI行业内的共识。总之,尽管人类数据面临枯竭的问题,但AI训练并非没有解决办法。通过数据的隔离和合成数据的使用,可以有效克服模型崩溃的问题,确保AI的持续发展。

bitpie和imtoken台积电计划2023年在竹科开设全球研发中心 吸纳8000名研发人员7月24日消息,台积电即将在7月28日举行全球研发中心启用典礼,该中心坐落于台湾新竹科学园区科环路。有传言称,创始人张忠谋也将亲自出席,突显该研发中心的重要性。据台积电董事长刘德音透露,台积电一直在深耕中国台湾地区,而在2023年,他们将在竹科正式开设全球研发中心,并计划吸纳8000名研发人员。刘德音表示,台积电将把这个全球研发中心打造成类似于“贝尔实验室”的存在,用来进行台积电未来20、30年的研发大计。他强调,半导体产业是全球性的竞争,科技日新月异,产业界必须依靠自身实力。值得一提的是,台积电还计划在新竹宝山与台中科学园区落地2nm晶圆厂,总计六期工程。目前,相关工程正在如期进行中,预计2nm工艺将在2025年开始量产。业内消息称,台积电已启动2纳米试产的前置作业,同时将引入AI系统以提高能效,并加速试产效率。据了解,台积电的2纳米制程将首次采用全新的GAA架构,研发初期将在竹科建立小规模试产生产线,随后逐步导入竹科宝山晶圆20厂。预计在2024年开始风险试产,并在2025年正式量产N2工艺。此外,台积电还规划于2026年推出2纳米家族的N2P和N2X工艺。未来,像苹果、英伟达等大厂预计将成为台积电2纳米制程的首批客户。据查询公开资料获悉,台积电全球研发中心位于竹科宝山,占地面积约18.7公顷,其建设始于2020年中,原计划于2021年完成,但由于多种原因一直拖延至今才进入施工完成阶段。这个研发中心是台积电晶圆厂群中特殊的厂办合一大楼,研发单位将设立自属晶圆厂,并预计可容纳8000多名研发人员。目前已有约2000名人员进驻,未来其他研发单位将陆续搬迁入驻。据ITBEAR科技资讯了解,台积电将借助这个全球研发中心来加强其在全球半导体产业中的领先地位。三星折叠屏手机横扫印度市场 Z Flip 5和Z Fold 5预订量创纪录!8月11日消息,三星近日在印度市场隆重推出了备受期待的Z Flip 5和Z Fold5两款折叠屏手机。据了解,这两款手机在短短的时间内创下了预订量的历史纪录,引发了消费者的强烈兴趣。三星的Z Flip 5和Z Fold5折叠屏手机自问世以来,一直备受关注。在7月26日正式在印度发布后,消费者们积极行动起来,在仅仅28小时内,预订量就突破了10万份。这一迅猛的市场反应表明,折叠屏手机已经深入人心,成为了当下手机市场的热门产品。全新拍摄可能性:三星Galaxy S23 Ultra带来2亿像素新体验7月21日消息,三星电子近日发布了旗下全新旗舰机型Galaxy S23Ultra,该手机带来了移动影像领域的新突破,为用户提供全天候、全场景的专业影像体验。Galaxy S23 Ultra搭载了新一代2亿像素传感器ISOCELLHP2,这一像素数量是传统1250万像素的16倍,大大提升了画面细节的记录能力。用户在拍摄后,即使进行多次放大或剪裁,照片仍然保持细腻逼真,为后期裁切构图提供了更多便利。全新三星Galaxy Tab S9系列:再次引领平板电脑创新8月24日消息,三星电子近日正式发布全新一代Galaxy TabS9系列平板电脑。这一系列平板电脑以其引人注目的创新功能和卓越的智能体验,再次向用户提供了高品质的生活方式选择。特斯拉推出超值优惠:Model Y售价重磅调整,购车更划算!8月14日消息,特斯拉(Tesla)近日宣布了一系列引人瞩目的调整和优惠政策,为消费者带来了购车的良机。根据官方消息,特斯拉Model Y长续航版的售价自8月14日起经过调整,从之前的31.39万元降至29.99万元,而高性能版的售价也从36.39万元降低至34.99万元,这无疑为那些热衷于特斯拉的消费者带来了更具吸引力的选择。新一代生产力工具“夸克扫描王App”上线 AI大模型让扫描“提质增效”随着AI大模型技术逐渐深入到应用层面,手机扫描的功能和体验迎来了全面升级。日前,阿里智能信息事业群推出搭载AI大模型技术的手机扫描产品“夸克扫描王App”,集合高清扫描、提取文字、格式转换、去除手写笔迹、自拍证件照等20余种功能,更精准、更高效地识别、分析与理解复杂内容,成为用户提升工作、学习效率的扫描AI助手。

强大性能尽显!联想发布最新锐龙移动工作站:R9 PRO 7940HS + RTX 2000 Ada7月19日消息,联想今日发布了全新系列的ThinkPad移动工作站,其中包括ThinkPad P16v、P16s Gen2和P14s Gen 4,它们搭载了强大的AMD 7040系列处理器,为专业人士和学生提供出色的性能和便携性。ThinkPad P16v是一款定位于功能强大的移动工作站的笔记本电脑。它配备了AMD Ryzen 9 PRO 7040HS系列移动处理器,可为用户提供卓越的计算能力。此外,它还搭载了适用于移动工作站的NVIDIA RTX 2000 AdaGeneration独立显卡,能够处理图形和计算密集型任务。用户可以根据自己的需求选择多种屏幕分辨率,包括具有低蓝光功能的超亮度800nitIPS面板,为用户提供更好的视觉体验。OPPO K11全新亮相:搭载索尼IMX890传感器 打造拍照强者!7月31日消息,全新的OPPO K11即将于明天正式开售,这款主打影像的手机备受期待。据悉,OPPOK11的最大亮点在于搭载了索尼旗舰级传感器IMX890,并且支持OIS光学防抖,被誉为“2000元档最强的拍照手机”。小米汽车密集行动,交付中心选址工作正式启动!7月7日消息,据可靠消息来源透露,小米汽车近期开始了交付中心的选址工作。作为一家新兴的汽车制造商,小米汽车要求候选场地至少能容纳120辆汽车,并且建筑面积不低于3000平方米。根据来自长三角地区的经销商集团反馈,小米汽车已经开始筛选合适的交付中心场地。这意味着小米汽车正朝着落地交付的目标迈出重要的一步。根据消息人士透露,小米汽车计划采用类似于小米手机的销售模式,即小米手机专营店、交付中心以及授权钣喷中心的组合。这种模式在行业内已经被广泛应用,并且小米汽车可能会借鉴这种模式来进行运营。据了解,小米集团CEO雷军目前正在参加小米供应商生态链大会,他计划借此机会与长三角地区的一些大型经销商集团交流,了解他们在汽车营销工作方面的经验和见解。这一举措表明小米汽车非常重视市场反馈和行业合作,在努力构建一个全面发展的生态系统。此前有报道称,小米汽车的供应商之一、长春一汽富维汽车零部件有限公司表示,他们正在积极与小米汽车进行业务沟通,并且已经有多家分子公司进入到小米汽车的采购组中。这显示了小米汽车供应链的不断完善,并且小米的首款车型报价已经完成。据小米集团合伙人兼总裁卢伟冰的规划,小米汽车计划在今年夏冬两季进行测试,明年上半年正式上市。卢伟冰还表示,小米汽车的进展非常顺利,预计能够按时或略超预期地实现上市目标。小米汽车作为小米集团进军汽车领域的重要战略之一,备受行业和市场的关注。小米汽车的动向引发了广泛猜测和期待,人们对小米如何创新和颠覆传统汽车行业充满了期待。随着交付中心的选址工作开始,小米汽车离实现自己的愿景又近了一步。数十位世界冠军参加中国青奥会,万众瞩目的体育盛事即将开幕即将在中国举行的青年奥林匹克运动会(China Youth Olympic Games)吸引了来自世界各地的顶尖青年运动员参加,其中包括数十位世界冠军。这场备受瞩目的体育盛事将在三个城市同时举办,包括北京、上海和广州。作为中国体育界最重要的赛事之一,青奥会汇集了世界各个项目的优秀青年运动员。这些年轻的运动员代表着他们所代表的国家和地区,将参加来自田径、游泳、体操、篮球、足球以及其他各类项目的比赛。他们竭尽全力,力争在中国青奥会上取得优异成绩。值得一提的是,中国青奥会在参赛的世界冠军方面表现出色。经过前几届青奥会的洗礼,这些世界冠军已经展现了他们的实力和潜力,他们将成为这次比赛中的佼佼者,争夺奖牌和荣誉。中国青奥会不仅仅是一场比赛,更是一个交流和合作的平台。来自不同国家和地区的运动员将相互切磋、学习和交流,这将有助于促进不同国家和地区之间的友谊和合作。青奥会还将举办各类文化和艺术活动,丰富运动员们的参赛经历。中国青奥会即将开幕,整个世界都在期待着这个体育盛事。我们将见证那些年轻的运动员们为荣誉而战的精彩瞬间,他们无疑将成为未来体育世界的明星。让我们一起期待这场属于青年的奥林匹克盛会,为他们加油!宝骏云朵:新一代纯电动车盲定即将开启!7月25日消息,五菱宝骏汽车宣布其旗下最新纯电动车型——宝骏云朵将于本月28日进行盲定,并有望在未来正式上市。据了解,该车的价格将定位在10-15万元之间,竞争对手将主要面向比亚迪海豚。大众发布全新高性能电动车型:ID.X Performance官图发布9月10日消息,大众汽车日前发布了一款全新的高性能电动车型——ID.XPerformance。这款车型基于MEB平台打造,配备双电机,最大马力可达550匹,标志着大众首次涉足高性能电动轿车领域。鸿蒙OS 4.0.0.118更新:华为手机系统体积缩小,性能提升9月21日消息,华为最近频繁进行了Mate 60和X5系列手机的系统优化,并且发布了最新的鸿蒙OS4.0.0.118版本更新。这次更新的重点是提升系统性能和用户体验。2023上海车展首发!全新Pathfinder探路者预计2024年上市!8月7日消息,近日有关于东风日产全新SUV的谍照在网络上流传。据了解,该车定名为Pathfinder探路者,将作为东风日产旗下全新的中大型SUV车型亮相。预计该车将在2023年上海车展首次亮相,并计划在2024年第一季度开始销售。Pathfinder探路者将面对激烈的市场竞争,其竞争对手主要包括大众途昂、福特探险者以及理想L8等车型。极氪汽车宣布首批欧洲版极氪 001成功下线,即将登陆欧洲市场!8月3日消息,极氪汽车宣布,首批欧洲版极氪 001已于昨日在宁波杭州湾极氮智慧工厂正式下线,并将很快发运前往欧洲,开启了其在欧洲市场的新篇章。丰田计划在中国市场推出纯电动埃尔法,全球首发9月11日消息,近年来,中国电动汽车市场蓬勃发展,各大汽车制造商纷纷投入电动车领域。在这个竞争激烈的市场中,丰田旗下的埃尔法(Alphard)以其高端定位和独特的设计一直备受欢迎。如今,丰田计划在中国市场推出埃尔法的纯电动版本,而且这款车型将在全球首次亮相。据了解,丰田车体(Toyota AutoBody)的社长松尾胜博表示,丰田计划未来推出电动MPV车型,并将致力于推动纯电MPV项目,以满足不断增长的客户需求,提升竞争力。他表示,中国市场的电动MPV市场正在迅速崛起,多家中国本土车企已经推出与埃尔法相似设计的纯电MPV,这使得丰田感到竞争压力。