http://m.007sbw.cn 2025-04-08 10:43 來源:能源工業(yè)互聯(lián)網(wǎng)聯(lián)合創(chuàng)新中心
高質(zhì)量數(shù)據(jù)是提升模型應(yīng)用效能、增強(qiáng)模型泛化能力、保障模型穩(wěn)定可信的關(guān)鍵基礎(chǔ),是發(fā)展以大模型為代表的人工智能技術(shù)的重要支撐。為加速新質(zhì)生產(chǎn)力賦能新型工業(yè)化,推動(dòng)人工智能大模型技術(shù)進(jìn)步,更好地發(fā)揮數(shù)據(jù)要素價(jià)值,中國工業(yè)互聯(lián)網(wǎng)研究院聯(lián)合香港科技大學(xué),在進(jìn)行深入調(diào)研和充分交流的基礎(chǔ)上,共同構(gòu)建面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評(píng)估體系。
(一)評(píng)價(jià)體系
針對(duì)工業(yè)語料的特點(diǎn),在通用數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)的6個(gè)指標(biāo)的基礎(chǔ)上(GB/T 36344-2018),提出專業(yè)性、通用性、稠密性、均衡性、安全合規(guī)性、全面性、可回溯性、可解釋性等8個(gè)工業(yè)語料指標(biāo),形成面向工業(yè)語料的質(zhì)量評(píng)價(jià)體系。
專業(yè)性等新增工業(yè)語料測(cè)評(píng)方法如下:專業(yè)性指數(shù)據(jù)蘊(yùn)含面向特定工業(yè)行業(yè)領(lǐng)域的有效信息,可用于解決專業(yè)領(lǐng)域問題,具體表現(xiàn)為數(shù)據(jù)內(nèi)容與所在領(lǐng)域的知識(shí)體系和業(yè)務(wù)流程高度匹配,具備清晰、準(zhǔn)確、深入的行業(yè)專業(yè)知識(shí)特征。測(cè)試中,專業(yè)性分采用百分制,基于采樣數(shù)據(jù)是否為行業(yè)專業(yè)語料的比例進(jìn)行計(jì)算,核心目的是評(píng)估預(yù)料中非相關(guān)性數(shù)據(jù)的比例。
通用性指數(shù)據(jù)具有跨部門、跨企業(yè)、跨場景的廣泛適用性,能夠?yàn)椴煌瑯I(yè)務(wù)決策提供有效支撐,具有較強(qiáng)的可遷移性。測(cè)試中,將通用性分為三個(gè)等級(jí):企業(yè)級(jí),集團(tuán)級(jí)和行業(yè)級(jí)、通用級(jí)。企業(yè)級(jí)為企業(yè)自制數(shù)據(jù)和語料,僅適用特定單一企業(yè),如自制設(shè)備操作手冊(cè)等;集團(tuán)級(jí)適用于企業(yè)集團(tuán)內(nèi)部或具有緊密合作關(guān)系的關(guān)聯(lián)企業(yè),但不具備全行業(yè)范圍內(nèi)的通用性;行業(yè)級(jí)為通用數(shù)據(jù),適用于行業(yè)內(nèi)通用的設(shè)備和工藝,如行業(yè)工業(yè)知識(shí)等;通用級(jí)為跨行業(yè)通用語料,如熱力學(xué)、傳熱學(xué)、電磁學(xué)等跨行業(yè)語料。
稠密性指數(shù)據(jù)內(nèi)容高度集中且重復(fù)率低,數(shù)據(jù)記錄的條目密度和信息價(jià)值密度較高,單位數(shù)據(jù)所含的信息量豐富且多樣化。測(cè)試中,基于隨機(jī)采樣后數(shù)據(jù)詞嵌入的余弦相似度計(jì)算,根據(jù)相似度估算數(shù)據(jù)的重復(fù)比率。
均衡性指數(shù)據(jù)采集在時(shí)間、空間、類別等各個(gè)維度上分布均勻,不存在明顯偏差或不平衡現(xiàn)象。數(shù)據(jù)的均衡性確保了模型訓(xùn)練和評(píng)估過程中數(shù)據(jù)覆蓋全面、客觀,避免因數(shù)據(jù)偏斜而導(dǎo)致的決策失誤或預(yù)測(cè)偏差,提高模型泛化性能和決策結(jié)果的可靠性。測(cè)試中重點(diǎn)對(duì)數(shù)據(jù)的采集時(shí)間、設(shè)備來源等進(jìn)行考察。
安全合規(guī)性指數(shù)據(jù)中應(yīng)避免涉及?;分圃臁⒍酒分谱鞴に?、違規(guī)操作指導(dǎo)、個(gè)人企業(yè)隱私等敏感、危險(xiǎn)、隱私信息,對(duì)于工業(yè)領(lǐng)域,應(yīng)明確界定敏感內(nèi)容邊界,對(duì)可能存在安全隱患的數(shù)據(jù)進(jìn)行及時(shí)標(biāo)注和嚴(yán)格管控。安全合規(guī)性的要求可防止因數(shù)據(jù)安全問題引發(fā)的事故或違法風(fēng)險(xiǎn)。
全面性指測(cè)試內(nèi)容覆蓋是否全面,對(duì)于面向行業(yè)的通用類知識(shí)語料數(shù)據(jù),全面性指是否可覆蓋該行業(yè)學(xué)科知識(shí)和生產(chǎn)制造各環(huán)節(jié)。對(duì)于面向特定場景的數(shù)據(jù)集,暫不進(jìn)行全面性測(cè)試。測(cè)試中,采用百分制,對(duì)數(shù)據(jù)覆蓋的全面性進(jìn)行評(píng)估。
可回溯性指是否包含數(shù)據(jù)的來源,數(shù)據(jù)是否能夠追溯到其來源、生成過程、以及任何中間轉(zhuǎn)換步驟。對(duì)于問題診斷、數(shù)據(jù)審計(jì)和合規(guī)性至關(guān)重要。測(cè)試中,檢查數(shù)據(jù)是否標(biāo)注來源、轉(zhuǎn)換等。
可解釋性指數(shù)據(jù)是否易于被用戶理解和準(zhǔn)確解釋,體現(xiàn)為數(shù)據(jù)的含義、數(shù)字、單位是否清晰明確,便于用戶直觀把握數(shù)據(jù)所表達(dá)的信息和價(jià)值。具備良好可解釋性的數(shù)據(jù)應(yīng)具備明確的定義、規(guī)范的表示方法,以確保數(shù)據(jù)使用者能夠快速準(zhǔn)確地理解數(shù)據(jù)的內(nèi)涵與邊界,從而避免因數(shù)據(jù)模糊或歧義帶來的誤解或決策偏差。測(cè)試中,通過專家對(duì)采樣數(shù)據(jù)進(jìn)行理解,評(píng)價(jià)其可解釋性,每條語料使用是否表述清楚進(jìn)行評(píng)價(jià),然后采用百分制進(jìn)行匯總評(píng)分。面向制造業(yè)場景的人工智能語料數(shù)據(jù)質(zhì)量評(píng)估體系是一套全面覆蓋數(shù)據(jù)集指標(biāo)體系、評(píng)測(cè)工具及評(píng)測(cè)實(shí)施方案的綜合性測(cè)評(píng)體系,目的是通過科學(xué)、系統(tǒng)的方法,對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行客觀、公正的評(píng)測(cè),確保數(shù)據(jù)集的數(shù)據(jù)質(zhì)量,為大模型研發(fā)提供可靠的數(shù)據(jù)集支持。促進(jìn)數(shù)據(jù)要素的流通和利用,推動(dòng)技術(shù)創(chuàng)新和服務(wù)升級(jí),共同應(yīng)對(duì)大模型時(shí)代對(duì)數(shù)據(jù)集質(zhì)量的挑戰(zhàn)。
(二)工作計(jì)劃
下一步,中國工業(yè)互聯(lián)網(wǎng)研究院結(jié)合人工智能技術(shù)發(fā)展趨勢(shì)和行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)需求持續(xù)完善人工智能數(shù)據(jù)集評(píng)估體系,開展數(shù)據(jù)集測(cè)評(píng),誠邀各位行業(yè)專家共同參與。