因為這兩天中研院那支小型測試的語言模型,訓練時用了中國的語言資料,導致大家議論紛紛,也感嘆台灣的語言資料庫太少太小。
看到好幾位網友提到,如果能有 Yahoo! 知識+ 和無名小站部落格的內容,加入成為訓練素材,會非常有幫助。
我試著到退虎會的 Line 群組問問看。But well you know,有種種問題與限制,包含了商業和政治光譜,不知道能不能促成?
後續之一:
目前得到的說法是,因為牽涉到個資保存規定的問題,所以當時乾脆把整個資料庫清除了。
(我覺得應該還是會有某人在某地藏了某種備份,畢竟是數百萬網友十數年的知識累積,不太可能大刀一揮假裝沒發生過。但 Y! 家內部資安管控算是嚴格的,說不定真的就被乖乖刪掉了?)