百度要推中國版ChatGPT 質量待觀察審查不會少

2023-02-02 时刻新闻 | 聽新聞

粵語【字號】大中小

2月2日，據美國之音報道，美國人工智能研究機構開發的AI解答程序ChatGPT自去年11月橫空出世後，其貌似對任何問題來者不拒的強大表現在全球爆紅，也引發中國用戶關注。百度公司最近宣布，將推出類似ChatGPT的中文工具。分析認爲，百度雖具技術實力，但中文版的同類工具質量能否與美版媲美還有待觀察，其AI工具代入政治審查也將是必然。

【百度要推中國版ChatGPT 質量待觀察審查不會少】
百度公司最近宣布，將推出類似ChatGPT的中文工具。分析認爲，百度雖具技術實力，但中文版的同類工具質量能否與美版媲美還有待觀察，其AI工具代入政治審查也將是必然。https://t.co/CrHwSvF4zV pic.twitter.com/b5Ny93srWk
— TimedNews.com （@TimednewsC） February 2, 2023

ChatGPT：AI的核心技術突破

基於人工智能（AI）技術的對話式聊天工具已經出現多年，常常用於虛擬客服、企業培訓等領域。不同於這些傳統的對話軟件，由美國OpenAI研究實驗室開發的ChatGPT可以進行的對話更爲復雜，憑借其海量數據儲備，對任何提問來者不拒，甚至可以說笑話、起名字、吟詩作對——這些語言功能以前被認爲是機器人無法掌握的創意工作。

同時，ChatGPT還具備編寫和調試計算機程序的能力。美國賓夕法尼亞大學沃頓商學院教授克裏斯蒂安·特爾維什（Christian Terwiesch）今年1月發表文章透露，ChatGPT通過了他主持的壹次工商管理碩士（MBA）考試；最近，ChatGPT還通過了明尼蘇達大學法學院教授給出的四項學生測試。

業界認爲，ChatGPT標志着機器學習和人工智能的核心技術突破。

台灣AI實驗室創始人、曾任微軟公司AI部門亞太區研究總監的杜奕瑾最近在接受美國之音採訪時說：“它（ChatGPT）利用龐大的資料、龐大的深入學習網路，透過非常高階的高級電腦運算，透過這種運算出來的結果……透過理解完整的文件，去回答相對復雜的問題。”

杜奕瑾說：“要能回答的好，不管是文本的數量級、模型的復雜度、超級電腦的運算能力，都是有很大的突破才有辦法做到這個結果。

ChatGPT界面簡單，使用流暢，背後支撐的是美國科技公司的雄厚財力和技術實力，以及AI技術人才。

ChatGPT的技術依托於OpenAI實驗室的“生成型預訓練變換模型3”（簡稱GPT-3）。GPT-3這壹大型語言模型出身谷歌公司2017年開發出的“Transformer”開放架構，可以寫出與人類語言難以區分的文章。

喬治·華盛頓大學助理教授、研究AI相關政策問題的專家傑弗裏·丁（Jeffrey Ding）對美國之音說：“早期的GPT-3模型基本上是在大量互聯網文本上訓練的，這方面的數據來自學術期刊文章，是在Reddit（網絡論壇）、維基百科等語料庫（corpus）上訓練的。”

他說：“因此，這需要大量的數據、大量的計算能力，以及大量優秀的研究人員和工程師來確保訓練以高效的方式進行……對於這些大型語言模型來說，入行門檻非常高。”

微軟公司給予OpenAI重要的資金支持，於2019年7月投資10億美元，併在不久之後取得了GPT-3的獨家授權。ChatGPT誕生後，今年1月23日，微軟宣布再向OpenAI提供數年的投資。據美國新聞網站Semafor此前報道，微軟這輪總注資金額可能高達100億美元。

在美國舊金山灣區壹家知名科技公司AI項目任職的華裔科研人士對美國之音說，OpenAI去年招募大量人力來“訓練”（tutor）基於海量數據的人工智能模型，誕生的ChatGPT因此比GPT-3架構有了質的飛躍。

這名要求匿名的科研人員對美國之音說：“在ChatGPT之前……2020年、2021年版本的GPT-3是沒有人類（參與）的數據，它是通過大量因特網上的文本進行訓練。直到去年，它們開始把人加進去，雇了很多很多人來做標注，來把模型訓練得很好，比網上許多那些開源的模型、開源的large language model（大型語言模型），ChatGPT要比他們的質量好得非常多。壹大半的功勞是歸功於這些人做的這些標注。”

這名科研人員估計，讓ChatGPT保持運作，至少需要上千、乃至上萬台GPU（圖形處理器）。

“這壹塊隻有最大的big tech（科技巨頭），比如微軟、Google、英偉達，這樣的公司內部可以有這樣的機群，這樣大的計算力。”他說。

百度躍躍欲試 文本質量有待觀察

彭博社1月29日報道說，中國搜索網站巨頭百度也將推出類似ChatGPT的工具，技術基礎將根植於百度的大規模機器學習模型ERNIE 3.0係統。

以搜索服務起家的百度已經在人工智能研究上花費了數十億美元，多年來壹直試圖從網絡營銷過渡到下壹代新興技術，例如雲服務、芯片、汽車自動駕駛等。

ChatGPT走紅後，中文用戶對此興趣濃厚。雖然美國的ChatGPT工具支持中文問答，但包括ChatGPT在內的OpenAI實驗室的服務不對中國境內用戶開放。此前曾有程序開發者將ChatGPT以微信小程序的形式接入微信平台，讓中國國內用戶參與使用，但自12月中旬以來，這壹小程序因“違規”被微信暫停了服務。

據報道，百度計劃在今年3月推出中國版本的ChatGPT，最初版本將嵌入其搜索服務中，讓用戶獲得對話式的搜索結果。有中國媒體報道，百度首席執行官李彥宏表示，相關技術已經達到臨界點，百度在其中有較大的機會。

舊金山灣區的那名科研人員認爲，百度是最早投身大規模語言模型的公司之壹，有技術實力發展出自己的“ChatGPT”。他說：“他們（百度）的研發搞了很久了。而且百度的財力和人力是有的，數據是有的，它那麽多的搜索、網頁，百度雲存了很多的網頁，所以不缺數據。”

“國內人工費也便宜，所以標注數據可能比OpenAI還便宜，成本不高。”

美國科技網站TechMonitor.ai指出，百度研究人員與中國鵬城實驗室合作發布的“鵬城-百度·文心”（ERNIE 3.0 Titan）預訓練語言模型具有2600億個參數，超過ChatCPT的技術根基（GPT-3.5模型）1750億的參數數量。

不過，有研究人員說，中國互聯網的文本質量，可能將製約百度版本的ChatGPT服務質量。

喬治·華盛頓大學的傑弗裏·丁說：“就質量而言，百度在製作自己版本的ChatGPT時將面臨的挑戰之壹是，互聯網上沒有那麽多高質量的中文文本，因爲高質量中文文本的語料庫（corpus）比高質量英文文本的語料庫要小。許多在這壹領域工作的中國研究人員都指出過這個關鍵的區別。”

“以頂尖的學術論文爲例，高質量的英語文章比比皆是，而中文的卻沒有那麽多。”丁對美國之音說。

他還表示：“百度的資金和算力限製也比OpenAI更大。因此，這兩個因素可能會降低百度版本ChatGPT的潛在質量。”

百度版ChatGPT是否會“壹本正經地胡說八道”？

目前ChatGPT壹個突出問題是，這壹聊天工具常常以看似嚴肅的方式，在壹些問題上信口開河，以貌似客觀權威的文風給出具有誤導性的答案，甚至是嚴重的不實信息。人工智能專家將這壹問題形容爲“壹本正經的胡說八道”。

在ChatGPT推出的早期階段，即使面對難以回答、或者具有荒謬假設前提的問題，聊天機器人還是會自信滿滿地給出長篇大論的“答案”。比較有名的例子是，曾有用戶提問“爲什麽氰化鉀炒菜特別香”，ChatGPT竟然將這壹劇毒物質形容爲壹種美味的調料，稱“尤其適合加入印度咖喱”。

與此同時，有用戶指出，ChatGPT在壹些政治議題上似乎進行自我審查，包括在敏感話題上避免提出批評中國政府的意見。分析認爲，百度開發的中國版ChatGPT，在處理問題時的“政治審查”將更爲深入。

美國獨立學者金培力（Philip J. Cunningham）是ChatGPT的先行使用者。他在對這壹“機器人”的英語表達能力感到讚歎的同時，也感到其“寫作”有時空洞無物。

“它製造了壹個客觀的語氣，但它併不客觀，但它發出壹個非常令人信服的聲音，因爲在某種程度上，它非常確信自己。”金培力對美國之音說。

“不僅僅是句式完美，而且它是有組織的。它引入壹個主題，代入主要部分，然後總結，很好地成篇連貫在壹起。所以這是壹篇文章。……但如果妳仔細看，它實際上幾乎什麽都沒說。”

金培力是記錄1989年學生運動的《天安門之月》（Tiananmen Moon）壹書的作者。他發現，ChatGPT對“六四”話題似乎不願多談。當被問到1989年天安門事件時，ChatGPT強調，“中國政府沒有發布相關信息，所以我們不能切實了解情況”。

“我認爲它非常適合《中國日報》之類的東西，如果妳想寫壹些不會冒犯任何人的東西的話。”金培力說。

觀察人士認爲，百度版的ChatGPT也將不可避免地代入內容政治審查。百度去年8月推出的文本生成圖像AI模型ERNIE-ViLG就拒絕爲“天安門廣場”等政治敏感話題和政治領導人的描述生成圖像。

“在中國，爲廣泛消費者使用而推出的任何人工智能技術都將面臨遵守國家審查準則的壓力，而且這些人工智能技術很可能是通過大量官方媒體文章培訓出來的，這些文章在廣泛的問題上都要堅持北京的官方立場。”福坦莫大學法學教授、美國外交關係協會高級研究員明克勝（Carl Minzner）通過電子郵件對美國之音說。

“在美國，人們說，不要說任何種族主義的話，然後就訓練機器不要帶有種族主義；在中國，人們訓練機器不要批評習近平，不要批評共產黨。這很容易。” 金培力表示。

他說：“（在美國）更多的是對‘政治正確’的擔憂；在中國，擔心更多的是對當權者的批評。”

中國出台法規對付AI“深度偽造”

不過，也有分析人士指出，近年來以文字轉圖像生成軟件和ChatGPT智能聊天軟件爲代表的“生成式人工智能”（Generative AI）將爲所有國家的政府和社會提出如何監管和如何甄別虛假信息的挑戰。

新美國基金會（New America）數字經濟研究員、斯坦福大學網絡政策中心“數字中國”（DigiChina）項目主編魏光明（Graham Webster）說：“依靠這些黑箱算法傳遞信息的風險在於，沒有人在這壹過程中檢查信息到底是不是好的。”

他對美國之音說：“人們可能會相信某些東西是真的，因爲輸出（的信息）聽起來令人信服，但可能不是真的。這不僅僅是在中國，世界各地的人們、政府、公司、用戶都必須面對這個問題。”

中國今年1月10日開始正式實施針對“深度偽造”（deep fake）的《互聯網信息服務深度合成管理規定》，要求服務提供商對那些“可能導緻公衆混淆或者誤認的”AI生成內容進行“顯著標識”。

不過，即使中國能夠要求科技平台對“深偽”的圖像內容進行類似於水印的標注，如何對容易復製和流傳的文字進行“顯著標識”，將爲執政者帶來技術難題。

百度要推中國版ChatGPT 質量待觀察 審查不會少

百度要推中國版ChatGPT 質量待觀察審查不會少