狼友av免费一区|午夜AV人气不卡黄色福利av资源|成人久久99视频|国产亚洲1区2区|久久亚洲日韩片无码|超碰人人7089|日韩av天天草草草|亚洲av逍遥社区|可以免费观看亚洲哦|91av超碰在线

廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺
當(dāng)前位置:廣東省應(yīng)對技術(shù)性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

美國商務(wù)部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成人工智能和開放數(shù)據(jù):指南和最佳實踐》

信息來源:江蘇省技術(shù)性貿(mào)易措施信息平臺    發(fā)布日期:2025-02-08    閱讀:1370次
字體:
0

2024年1月16日,美國商務(wù)部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成型AI和開放數(shù)據(jù):指南和最佳實踐》,為發(fā)布供生成式AI系統(tǒng)使用的開放數(shù)據(jù)提供指導(dǎo),確保商務(wù)部數(shù)據(jù)在生成式AI時代能有效利用。

一、背景

商務(wù)部與開放數(shù)據(jù)資產(chǎn):美國商務(wù)部是主要的開放數(shù)據(jù)生產(chǎn)者,其數(shù)據(jù)涵蓋人口、經(jīng)濟、環(huán)境等多領(lǐng)域,有超15萬個開放數(shù)據(jù)集,包括文本、表格、地理空間等多種格式。長期以來,商務(wù)部致力于提高數(shù)據(jù)質(zhì)量和可訪問性,如40年前將數(shù)據(jù)電子化,近年依據(jù)法案以機器可讀格式發(fā)布數(shù)據(jù)。如今,為適應(yīng)生成式AI應(yīng)用發(fā)展,持續(xù)改進(jìn)數(shù)據(jù)發(fā)布實踐。

人工智能與生成式人工智能發(fā)展:人工智能旨在使計算機算法具備類人智能行為,機器學(xué)習(xí)和深度學(xué)習(xí)是其重要分支,生成式AI則是深度學(xué)習(xí)中的模型子集,可生成新內(nèi)容。生成式AI應(yīng)用有潛力使開放數(shù)據(jù)更易用,但也存在如編造虛假信息等問題,且其基礎(chǔ)模型訓(xùn)練資源消耗大。商務(wù)部希望通過本指南使開放數(shù)據(jù)適配生成式AI系統(tǒng),降低創(chuàng)新成本。

指南制定過程:鑒于生成式AI發(fā)展,商務(wù)部數(shù)據(jù)治理委員會于2023年成立工作組。因現(xiàn)有數(shù)據(jù)存在格式、元數(shù)據(jù)、文檔和可訪問性不一致及許可等問題,工作組發(fā)布信息請求(RFI)并舉辦研討會,收到37份來自各界的提交內(nèi)容。本指南參考RFI回應(yīng)及專家意見,雖主要針對商務(wù)部,但對其他數(shù)據(jù)發(fā)布者也有價值,且定義了相關(guān)術(shù)語如生成式模型、系統(tǒng)和應(yīng)用等,并分析了商務(wù)部開放數(shù)據(jù)在生成式 AI 系統(tǒng)中的訓(xùn)練、測試驗證、微調(diào)及數(shù)據(jù)檢索和實時響應(yīng)等應(yīng)用方式。

二、指南與最佳實踐

1、文檔記錄

提供全面數(shù)據(jù)資產(chǎn)背景:全面記錄數(shù)據(jù)集信息至關(guān)重要,包括數(shù)據(jù)用途、限制、偏差、數(shù)據(jù)字典、來源及處理步驟等,有助于深入理解數(shù)據(jù),提升AI模型訓(xùn)練與數(shù)據(jù)檢索的準(zhǔn)確性和可靠性。實施持久標(biāo)識符(PID)可確保數(shù)據(jù)及相關(guān)文檔的穩(wěn)定引用,即便數(shù)據(jù)更新也能準(zhǔn)確追蹤。每次數(shù)據(jù)發(fā)布后及時更新文檔并進(jìn)行版本控制,詳細(xì)記錄數(shù)據(jù)變化情況,同時提供數(shù)據(jù)處理的開源代碼,增強數(shù)據(jù)處理過程的透明度與可重復(fù)性。

最大化文檔可用性和可訪問性:采用人類和機器可讀的雙格式提供文檔,人類可讀格式便于研究人員等理解數(shù)據(jù),機器可讀格式則利于自動化數(shù)據(jù)處理。在合適場景下優(yōu)先選用開源軟件格式,如R或Python,避免使用專有軟件,以增強數(shù)據(jù)的可獲取性、透明度和互操作性,促進(jìn)生成式AI系統(tǒng)對數(shù)據(jù)的有效利用。

2、數(shù)據(jù)和元數(shù)據(jù)格式

發(fā)布全面結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中納入如發(fā)布者、來源、權(quán)限、更新日期等與生成式AI相關(guān)的關(guān)鍵信息,同時添加詳細(xì)的變量級元數(shù)據(jù),涵蓋應(yīng)用邏輯、依賴信息、分布信息等,提升數(shù)據(jù)的機器可理解性,為AI模型訓(xùn)練和數(shù)據(jù)處理提供有力支持。遵循常用元數(shù)據(jù)模式和標(biāo)準(zhǔn)(如DCAT-US、Schema.org等)發(fā)布數(shù)據(jù)和元數(shù)據(jù),確保數(shù)據(jù)在不同系統(tǒng)間的互操作性。使用標(biāo)準(zhǔn)缺失數(shù)據(jù)值,避免因缺失值表示不一致導(dǎo)致的誤解,并確保文件命名規(guī)范、清晰,便于數(shù)據(jù)管理和檢索。

最大化數(shù)據(jù)和元數(shù)據(jù)可用性:以機器可讀格式生成數(shù)據(jù)和元數(shù)據(jù),滿足開放數(shù)據(jù)法案要求,采用如CSV、JSON等常用開放數(shù)據(jù)格式,確保數(shù)據(jù)傳播不受特定軟件限制。對于地理空間數(shù)據(jù)、圖像和視頻數(shù)據(jù)等,分別選用合適的開放格式(如 shapefiles、GeoPackages、標(biāo)準(zhǔn)化圖像和視頻格式)進(jìn)行發(fā)布,避免使用PDF和過度依賴專有軟件格式(如XLSX),以提高數(shù)據(jù)的可訪問性和互操作性。

3、數(shù)據(jù)存儲和傳播

以一致格式傳播開放數(shù)據(jù):考慮到生成式AI系統(tǒng)對大量數(shù)據(jù)的需求,壓縮或提供便捷下載方式以減少大型數(shù)據(jù)集的訪問障礙,采用ZIP、Apache Parquet等開源且語言無關(guān)的文件格式進(jìn)行壓縮,提高數(shù)據(jù)訪問效率。在數(shù)據(jù)發(fā)布中附帶詳細(xì)的書面文檔,為生成式AI模型訓(xùn)練和微調(diào)提供豐富背景信息,增強數(shù)據(jù)的實用性。

將開放數(shù)據(jù)存儲在易于檢索位置:提供多種數(shù)據(jù)檢索方式,如RESTful API和直接下載。RESTful API便于數(shù)據(jù)科學(xué)家和開發(fā)者編程檢索特定數(shù)據(jù)子集,提高數(shù)據(jù)檢索的靈活性和效率;直接下載則適用于需要完整數(shù)據(jù)集進(jìn)行本地處理的用戶。確保數(shù)據(jù)網(wǎng)站定期更新,優(yōu)化網(wǎng)站結(jié)構(gòu)(如設(shè)置合理的sitemaps、一致的URL命名)、保證安全證書有效、合理配置robots.txt文件以及采用HTML格式發(fā)布文檔等,提高網(wǎng)站的可爬取性,方便搜索引擎和自動化工具發(fā)現(xiàn)和索引數(shù)據(jù)。

4、數(shù)據(jù)許可和使用

以易懂格式發(fā)布開放數(shù)據(jù)權(quán)利和許可:明確界定并以機器可讀格式發(fā)布生成式AI相關(guān)的數(shù)據(jù)使用政策,涵蓋專利、隱私等限制條件,協(xié)調(diào)部門間制定統(tǒng)一的知識產(chǎn)權(quán)聲明和許可模板,確保數(shù)據(jù)使用的一致性和規(guī)范性。在商務(wù)部網(wǎng)站根目錄設(shè)置robots.txt文件,規(guī)范網(wǎng)絡(luò)爬蟲對數(shù)據(jù)的訪問行為,同時結(jié)合其他機制(如API密鑰、訪問控制)有效管理數(shù)據(jù)檢索。在數(shù)據(jù)集元數(shù)據(jù)中準(zhǔn)確鏈接數(shù)據(jù)許可證和權(quán)利信息,區(qū)分開放數(shù)據(jù)許可證和版權(quán)許可證,避免數(shù)據(jù)使用的混淆,確保數(shù)據(jù)使用符合法律規(guī)定和用戶預(yù)期。

協(xié)作開發(fā)和更新數(shù)據(jù)許可證和使用政策:商務(wù)部內(nèi)部各實體應(yīng)與法律部門緊密合作,共同制定和更新數(shù)據(jù)許可證和使用政策,加強部門間溝通協(xié)作,避免政策不一致。在更新政策時及時共享信息,提高政策的透明度和一致性。具體措施包括更新許可模板、制定詳細(xì)的元數(shù)據(jù)和機器可讀許可證應(yīng)用指南,以及在商務(wù)部現(xiàn)有知識產(chǎn)權(quán)資源中設(shè)立專門的“IP 和數(shù)據(jù)許可”部分,為數(shù)據(jù)使用提供全面的模板和最佳實踐參考。

5、數(shù)據(jù)質(zhì)量和完整性

為高質(zhì)量數(shù)據(jù)檢索準(zhǔn)備開放數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中明確指示數(shù)據(jù)質(zhì)量評估情況,便于用戶篩選和理解數(shù)據(jù)可靠性。建立自動化數(shù)據(jù)質(zhì)量控制流程,檢查數(shù)據(jù)缺失值、類型一致性和格式問題,并確保AI相關(guān)元數(shù)據(jù)完整,結(jié)合手動審查確保數(shù)據(jù)質(zhì)量。優(yōu)化API設(shè)計,確保其高效返回相關(guān)信息,數(shù)據(jù)格式符合模型要求,提供豐富的元數(shù)據(jù)和上下文信息,并具備高并發(fā)處理能力和良好的文檔及工具支持,為基于檢索增強生成(RAG)架構(gòu)的AI模型提供高質(zhì)量數(shù)據(jù)。

持續(xù)評估開放數(shù)據(jù)準(zhǔn)確性:開發(fā)針對AI/ML應(yīng)用領(lǐng)域的基準(zhǔn)數(shù)據(jù)集,用于評估模型性能和數(shù)據(jù)檢索、解釋效果,克服現(xiàn)有基準(zhǔn)數(shù)據(jù)集的局限性。提供針對商務(wù)部常用數(shù)據(jù)集的提示庫,指導(dǎo)生成式AI模型如何與實時數(shù)據(jù)交互,提高模型響應(yīng)的準(zhǔn)確性和可靠性。與生成式AI應(yīng)用開發(fā)者合作,通過優(yōu)化模型訓(xùn)練和調(diào)整,確保在生成響應(yīng)時優(yōu)先使用商務(wù)部的權(quán)威數(shù)據(jù),避免因數(shù)據(jù)來源問題導(dǎo)致的錯誤信息傳播。

三、未來工作

1、探索數(shù)字簽名

在開放的商務(wù)部數(shù)據(jù)環(huán)境中,強烈建議實施數(shù)字簽名。數(shù)字簽名作為一種加密機制,能夠有效驗證數(shù)據(jù)來源的可信度,確保數(shù)據(jù)在傳輸和存儲過程中未被篡改。這對于維護數(shù)據(jù)集的完整性和準(zhǔn)確性至關(guān)重要,因為被篡改或偽造的數(shù)據(jù)可能會給機器學(xué)習(xí)模型帶來嚴(yán)重的偏差和漏洞。通過采用數(shù)字簽名,商務(wù)部可以增強其數(shù)據(jù)集的真實性和可靠性,營造一個更安全的數(shù)據(jù)生態(tài)系統(tǒng),提升用戶對使用開放數(shù)據(jù)進(jìn)行AI/ML系統(tǒng)開發(fā)(包括生成式AI應(yīng)用)的信任度。

2、創(chuàng)建AI就緒性評估指標(biāo)

盡管商務(wù)部期望在整個部門內(nèi)推行現(xiàn)有的指南,但目前缺乏評估數(shù)據(jù)資產(chǎn)是否符合生成式AI就緒性的具體指標(biāo)或清單。例如,需要建立一個技術(shù)標(biāo)準(zhǔn)來明確商務(wù)部應(yīng)努力達(dá)到的AI就緒性水平,以及制定網(wǎng)站可爬取性的檢查清單等。通過確立這些評估指標(biāo),商務(wù)部將擁有清晰、可操作的目標(biāo),以便衡量工作進(jìn)展并精準(zhǔn)識別需要改進(jìn)的領(lǐng)域,從而切實確保數(shù)據(jù)資產(chǎn)能夠滿足生成式AI的應(yīng)用需求。

3、開發(fā)開放數(shù)據(jù)使用教育材料

商務(wù)部雖然已經(jīng)擁有一定數(shù)量的教育資源,如各類教育網(wǎng)站和培訓(xùn)項目,但隨著其開放數(shù)據(jù)與AI模型開發(fā)和使用的交集日益增多,仍需進(jìn)一步加強對學(xué)生、研究人員和公眾的教育資源建設(shè)。這包括開發(fā)新的培訓(xùn)課程、教程、材料,以及舉辦更多的研討會和培訓(xùn)活動,以提升用戶對商務(wù)部開放數(shù)據(jù)在生成式AI應(yīng)用中的理解和使用能力。

4、與其他機構(gòu)合作開展開放數(shù)據(jù)和AI就緒性工作

商務(wù)部認(rèn)識到其他聯(lián)邦機構(gòu)也在積極探索實現(xiàn)AI就緒性,因此期待與這些機構(gòu)分享自身經(jīng)驗和成果。例如,國家科學(xué)基金會的NAIRR試點項目就是一個正在進(jìn)行的合作案例,該項目整合了商務(wù)部下屬的NOAA和USPTO的AI就緒數(shù)據(jù)資產(chǎn)。通過與其他機構(gòu)的合作,商務(wù)部能夠促進(jìn)開放數(shù)據(jù)和AI就緒性工作在更廣泛范圍內(nèi)的協(xié)同發(fā)展,實現(xiàn)資源共享和優(yōu)勢互補。

5、與AI和開放數(shù)據(jù)專家協(xié)作進(jìn)行迭代

當(dāng)前的指南僅僅是一個迭代過程的開端,為了持續(xù)改進(jìn)商務(wù)部的開放數(shù)據(jù)以更好地適應(yīng)生成式AI應(yīng)用,需要與AI和開放數(shù)據(jù)專家進(jìn)行定期的、廣泛的反饋交流。商務(wù)部歡迎來自公眾、政府、學(xué)術(shù)界、工業(yè)界和其他利益相關(guān)者的反饋意見,涵蓋數(shù)據(jù)和元數(shù)據(jù)格式、數(shù)據(jù)存儲和傳播、數(shù)據(jù)許可和使用以及數(shù)據(jù)完整性和質(zhì)量等各個方面,以便不斷優(yōu)化指南內(nèi)容,使其始終保持相關(guān)性和有效性。

6、創(chuàng)建與數(shù)據(jù)用戶溝通的標(biāo)準(zhǔn)渠道

商務(wù)部應(yīng)建立標(biāo)準(zhǔn)化的方式向數(shù)據(jù)用戶傳達(dá)數(shù)據(jù)集的變更信息,例如創(chuàng)建一個可供用戶跟蹤的標(biāo)準(zhǔn)頁面或設(shè)立電子郵件列表。同時,提供通用的反饋機制(如在線表單)也至關(guān)重要,以便數(shù)據(jù)用戶能夠就數(shù)據(jù)變更提出疑問、報告問題或為即將發(fā)布的數(shù)據(jù)提供建議。此外,還應(yīng)積極培育開放數(shù)據(jù)用戶社區(qū),鼓勵用戶參與數(shù)據(jù)的改進(jìn)和優(yōu)化工作,例如通過舉辦類似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活動,為數(shù)據(jù)用戶提供交流和反饋的平臺。



廣東技術(shù)性貿(mào)易措施微信公眾號
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù)。

本文包含附件,您需要登錄后,才能查看此附件內(nèi)容!
如果您還不是會員,請先注冊

最新國外資訊
最新國內(nèi)資訊
最新工作動態(tài)
最新風(fēng)險預(yù)警
廣東省農(nóng)食產(chǎn)品技術(shù)性貿(mào)易措施(WTO/SPS)信息平臺 廣東省農(nóng)業(yè)標(biāo)準(zhǔn)化信息服務(wù)平臺
x