哈佛与谷歌联手发布百万公版书AI训练数据集

AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约100万册公版书籍的数据集,内容横跨多种类型、语言及作者,包括狄更斯、但丁和莎士比亚等因年代久远而已不受版权保护的经典作品。
这一数据集目前尚未正式发布,具体发布时间与方式也尚未明确。但可以确认的是,该数据集中的书籍来源于谷歌长期推进的图书数字化项目——谷歌图书(Google Books),因此谷歌也将参与将这一"珍贵资源库"向各界广泛开放的工作。
哈佛大学早在今年3月便率先透露了"机构数据倡议"(Institutional Data Initiative,简称IDI)的相关计划,表示将打造一个"为AI提供合法数据的可信渠道"。此后该项目鲜有消息,直至今日正式宣布启动,并确认微软与OpenAI已为IDI提供资金支持。
IDI执行主任格雷格·莱珀特(Greg Leppert)表示,这一数据集的设计初衷是通过向所有人开放如此庞大的资源——无论是研究机构还是AI初创公司——来"打造公平竞争的环境",让更多主体得以训练自己的大语言模型。
Q&A
Q1:哈佛机构数据倡议(IDI)发布的数据集包含哪些内容?
A:该数据集涵盖约100万册公版书籍,横跨多种文学类型、语言及作者,包括狄更斯、但丁、莎士比亚等经典作家的作品。这些书籍因年代久远已不受版权法保护,书目来源于谷歌长期推进的谷歌图书数字化项目。
Q2:哈佛IDI数据集目前可以使用了吗?
A:目前该数据集尚未正式对外发布,具体的发布时间与获取方式也尚不明确。哈佛大学与谷歌将共同参与后续的发布工作,有意向的研究机构和AI企业可持续关注官方动态。
Q3:哈佛IDI数据集的发布对AI初创公司有什么意义?
A:AI训练数据成本极高,通常只有大型科技公司才能承担。IDI数据集的发布旨在"打造公平竞争的环境",让资金有限的研究机构和AI初创公司也能获取大规模高质量的训练数据,用于训练自己的大语言模型,从而降低行业门槛。
相关知识
哈佛与谷歌联手发布百万公版书AI训练数据集
AI概览唤起率仅7%,谷歌的AI搜索出师不利
恐怖之王史蒂芬·金:我的书可以被用来训练 AI,但它还无法取代我
外媒:谷歌联合创始人布林重回公司,参与研发新一代AI系统
谷歌回应广告垄断指控:AI和平台影响下,开放网络迅速衰落
人文训练师上岗,让AI更有情商
谷歌AI视频编辑应用Google Vids上线:帮你写脚本、剪片、找素材等
消息称Meta正就为自有数据中心导入TPU AI芯片与谷歌洽谈
AI站上被告席
AI技术的水墨风格关羽形象创作与流量提升研究
推荐资讯
- 1李沁肖战已同居领证? 李沁肖 49367
- 2闫妮老公邹伟平简历 闫妮前 45096
- 3王凯蒋欣承认已有一子? 结 41019
- 4王灿前夫 王灿的第一任老公 36789
- 5汪希玥回北京过年,怎料见到汪 32860
- 6霍启山与霍启仁对嫂子郭晶晶的 29887
- 7张佳宁和宋轶长得像 同属甜美 25972
- 8央视主持孙小梅丈夫曝光,是大 21380
- 960年代,洪秀柱(右后)与父 20321
- 10佟丽娅事件是什么 佟丽娅回应 19640