色视频www在线播放国产成人 _亚洲第一激情av_在线播放豆国产99亚洲_国产亚洲精品福利_午夜伦全在线观看_这里只有精品丝袜_欧美少妇精品_欧美成人午夜电影_成人在线免费观看黄色_欧美日韩亚洲综合一区二区三区_欧美高清xxxxxkkkkk_久久精品国产99久久6

聚焦超長上下文,Claude為自己“拆”炸彈

聚焦超長上下文,Claude為自己“拆”炸彈

“安全”是AI領(lǐng)域經(jīng)久不衰的話題,伴隨著大模型的發(fā)展,隱私、倫理、輸出機(jī)制等風(fēng)險也一直伴隨著大模型“一同升級”……

近日,Anthropic研究人員以及其他大學(xué)和研究機(jī)構(gòu)的合作者發(fā)布了一篇名為《Many-shot Jailbreaking》的研究,主要闡述了通過一種名為Many-shot Jailbreaking(MSJ)的攻擊方式,通過向模型提供大量展示不良行為的例子來進(jìn)行攻擊,強調(diào)了大模型在長上下文控制以及對齊方法方面仍存在重大缺陷。

聚焦超長上下文,Claude為自己“拆”炸彈

據(jù)了解,Anthropic公司一直宣傳通過Constitutional AI(“憲法”AI)的訓(xùn)練方法為其AI模型提供了明確的價值觀和行為原則,目標(biāo)構(gòu)建一套“可靠、可解釋、可控的以人類(利益)為中心”的人工智能系統(tǒng)。

隨著Claude 3系列模型的發(fā)布,行業(yè)中對標(biāo)GPT-4的呼聲也愈發(fā)高漲,很多人都將Anthropic的成功經(jīng)驗視作創(chuàng)業(yè)者的教科書。然而,MSJ的攻擊方式,展示了大模型在安全方面,仍然需要持續(xù)發(fā)力以保證更加穩(wěn)定可控。

頂尖大模型齊汗顏,MSJ究竟何方神圣

有趣的是,Anthropic CEO Dario Amodei也曾出任OpenAI的前副總裁,而其之所以選擇跳出“舒適圈”成立Anthropic很大一部分原因便是Dario Amodei并不認(rèn)為OpenAI可以解決目前在安全領(lǐng)域的困境。而在忽略安全問題一味的追求商業(yè)化進(jìn)程是一種不負(fù)責(zé)任的表現(xiàn)。

在《Many-shot Jailbreaking》的研究中顯示,MSJ利用了大模型在處理大量上下文信息時的潛在脆弱性。這種攻擊方法的核心思想是通過提供大量的不良行為示例來“越獄”(Jailbreak)模型,使其執(zhí)行通常被設(shè)計為“拒絕”的任務(wù)。

聚焦超長上下文,Claude為自己“拆”炸彈

“上岸第一劍,先斬意中人”。研究團(tuán)隊同時測試了Claude 2.0、GPT-3.5、GPT-4、Llama 2 (70B)以及Mistral 7B等海外的主流大模型,而從結(jié)果來看,自家的Claude 2.0也沒有被“幸免”。

MSJ攻擊的核心在于通過大量的示例來“訓(xùn)練”模型,使其在面對特定的查詢時,即使這些查詢本身可能是無害的,模型也會根據(jù)之前的不良示例產(chǎn)生有害的響應(yīng)。這種攻擊方式展示了大語言模型在長上下文環(huán)境下可能存在的脆弱性,尤其是在沒有足夠安全防護(hù)措施的情況下。

因此,MSJ不僅是一種理論上的攻擊方法,也是對當(dāng)前大模型安全性的一個實際考驗,用以提示開發(fā)者和研究者需要在設(shè)計和部署模型時更加關(guān)注模型的安全性和魯棒性

聚焦超長上下文,Claude為自己“拆”炸彈

通過向Claude 2.0這樣的大型語言模型提供大量的不良行為示例來進(jìn)行攻擊。這些示例通常是一系列的虛構(gòu)問答對,其中模型被引導(dǎo)提供通常它會拒絕回答的信息,比如制造炸彈的方法。

數(shù)據(jù)顯示,在第256輪攻擊后,Claude 2.0表現(xiàn)出了明顯的“錯誤”。這種攻擊利用了模型的上下文學(xué)習(xí)能力,即模型能夠根據(jù)給定的上下文信息來生成響應(yīng)。

除了誘導(dǎo)大模型提供有關(guān)違法活動的信息,針對長上下文能力的攻擊還包括生成侮辱性回應(yīng)、展示惡性人格特征等。這不僅對個人用戶構(gòu)成威脅,還可能對社會秩序和道德標(biāo)準(zhǔn)產(chǎn)生廣泛影響。因此,開發(fā)和部署大模型時必須采取嚴(yán)格的安全措施,以防止這些風(fēng)險在實際應(yīng)用中復(fù)現(xiàn),并確保技術(shù)被負(fù)責(zé)任地使用。同時,也要求持續(xù)的研究和改進(jìn),以提高大模型的安全性和魯棒性,保護(hù)用戶和社會免受潛在的傷害。

基于此,Anthropic針對長上下文能力的被攻擊風(fēng)險帶來一些解決辦法。包括:

監(jiān)督微調(diào)(Supervised Fine-tuning)

聚焦超長上下文,Claude為自己“拆”炸彈

通過使用包含良性響應(yīng)的大量數(shù)據(jù)集對模型進(jìn)行額外的訓(xùn)練,以鼓勵模型對潛在的攻擊性提示產(chǎn)生良性的響應(yīng)。不過,盡管這種方法可以提高模型在零樣本情況下拒絕不當(dāng)請求的概率,但它并沒有顯著降低隨著攻擊樣本數(shù)量增加而導(dǎo)致的有害行為的概率

強化學(xué)習(xí)(Reinforcement Learning):

聚焦超長上下文,Claude為自己“拆”炸彈

使用強化學(xué)習(xí)來訓(xùn)練模型,以便在接收到攻擊性提示時產(chǎn)生合規(guī)的響應(yīng)。包括在訓(xùn)練過程中引入懲罰機(jī)制,以減少模型在面對MSJ攻擊時產(chǎn)生有害輸出的可能性。這種方法在一定程度上提高了模型的安全性,但它并沒有完全消除模型在面對長上下文攻擊時的脆弱性。

目標(biāo)化訓(xùn)練(Targeted Training):

通過專門設(shè)計的訓(xùn)練數(shù)據(jù)集來減少MSJ攻擊效果的可能性。通過創(chuàng)建包含對MSJ攻擊的拒絕響應(yīng)的訓(xùn)練樣本,模型可以學(xué)習(xí)在面對這類攻擊時采取更具防御性的行為。

提示修改(Prompt-based Defenses):

聚焦超長上下文,Claude為自己“拆”炸彈

通過修改輸入提示來防御MSJ攻擊的方法,例如In-Context Defense(ICD)和Cautionary Warning Defense(CWD)。這些方法通過在提示中添加額外的信息來提醒模型潛在的攻擊,從而提高模型的警覺性。

直擊痛點,Anthropic不打順風(fēng)局

自2024年以來,長上下文是目前眾多大模型廠商最為關(guān)注的能力之一。馬斯克旗下xAI剛剛發(fā)布的Grok-1.5也新增了長達(dá)128K上下文的處理功能。與之前的版本相比,模型處理的上下文長度增加至原先的16倍;Claude3 Opus版本支持了 200K Tokens 的上下文窗口,并且可以處理100萬Tokens 的輸入。

聚焦超長上下文,Claude為自己“拆”炸彈

除了海外企業(yè),國內(nèi)AI初創(chuàng)公司月之暗面最近也宣布旗下Kimi智能助手在長上下文窗口技術(shù)上取得重要突破,無損上下文處理長度提升至200萬字級別。

通過更長的上下理解能力,能夠提升大模型產(chǎn)品提升信息處理的深度和廣度,增強多輪對話的連貫性,推動商業(yè)化進(jìn)程,拓寬知識獲取渠道,提高生成內(nèi)容的質(zhì)量。然而,長上下文理帶來的安全和倫理問題不可小覷。

斯坦福大學(xué)研究顯示,隨著輸入上下文的增長,模型的表現(xiàn)可能會出現(xiàn)先升后降的U形性能曲線。這意味著在某個臨界點之后,增加更多的上下文信息可能無法帶來顯著的性能改進(jìn),甚至可能導(dǎo)致性能退化。

在一些敏感領(lǐng)域,就要求大模型在處理這些內(nèi)容時必須非常謹(jǐn)慎。對此,2023年,清華大學(xué)黃民烈團(tuán)隊提出了大模型安全分類體系,并建立了安全框架,以規(guī)避這些風(fēng)險。

聚焦超長上下文,Claude為自己“拆”炸彈

Anthropic此次“刮骨療毒”,讓大模型行業(yè)在推進(jìn)大模型技術(shù)落同時,重新認(rèn)識其安全問題的重要性。MSJ的目的并不是為了打造或推廣這種攻擊方法,而是為了更好地理解大型語言模型在面對此類攻擊時的脆弱性。

大模型安全能力的發(fā)展是一場無休止的“貓鼠游戲”。通過模擬攻擊場景,Anthropic 能夠設(shè)計出更加有效的防御策略,提高模型對于惡意行為的抵抗力。這不僅有助于保護(hù)用戶免受有害內(nèi)容的影響,也有助于確保AI技術(shù)在符合倫理和法律標(biāo)準(zhǔn)的前提下被開發(fā)和使用。Anthropic 的這種研究方法體現(xiàn)了其對于推動AI安全領(lǐng)域的承諾,以及其在開發(fā)負(fù)責(zé)任的AI技術(shù)方面的領(lǐng)導(dǎo)地位。

大模型之家認(rèn)為,目前大模型的測試層出不窮,相比較幻覺帶來的能力問題,輸出機(jī)制帶來的安全危害更需要警惕。隨著AI模型處理能力的增強,安全問題變得更加復(fù)雜和緊迫。企業(yè)需要加強安全意識,投入資源進(jìn)行針對性研究,以預(yù)防和應(yīng)對潛在的安全威脅。這包括對抗性攻擊、數(shù)據(jù)泄露、隱私侵犯等問題,以及長上下文環(huán)境下可能出現(xiàn)的新風(fēng)險。

(0)
上一篇 2024年4月9日 17:16
下一篇 2024年4月9日 20:42
亚洲一区二区三区精品在线观看| 99国产精品99久久久久久粉嫩| 热久久精品免费视频| 91久久国产综合久久91精品网站| 日韩欧美专区在线| 欧美国产97人人爽人人喊| 午夜一区不卡| 极品束缚调教一区二区网站 | 成人字幕网zmw| 亚洲а∨天堂久久精品9966| 亚洲欧美日本韩国| 极品少妇xxxx偷拍精品少妇| 欧美中文字幕一区二区| 欧美国产大片| 成年人在线视频免费观看| 18禁免费观看网站| 国产成人免费观看| 欧美国产第二页| 精品国产在天天线2019| 黄色av电影在线播放| 天天干天天综合| 国产又黄又爽免费视频| 91成人免费看| 97精品视频在线观看| 日韩高清免费在线| 在线精品视频免费播放| 国产精品高潮呻吟久久| 看电视剧不卡顿的网站| 欧美激情五月| 久久99免费视频| 爆乳熟妇一区二区三区霸乳| 一区二区欧美亚洲| 在线成人免费视频| 亚洲国产综合色| 国产日本一区二区| 极品尤物av久久免费看| 99国产精品| 日韩欧美三级| 国产成人精品亚洲线观看| 在线黄色的网站| 国产成人l区| 精品视频二区| 日本在线观看天堂男亚洲 | 91精品国产综合久久香蕉最新版 | 成人xxxx| 99999精品视频| 国产 国语对白 露脸| 久久riav| 国产精品免费区二区三区观看 | 欧美综合国产| 99精品国产高清一区二区麻豆| 成人在线免费观看黄色| 日韩私人影院| 免费免费啪视频在线观看| 成人免费xxxxx在线视频| 欧美fxxxxxx另类| 99久久免费精品国产72精品九九| 大胆人体一区二区| 日本不卡一二三| 3d动漫一区二区三区在线观看| 97在线观看免费观看高清| 亚洲男人都懂的网站| www污污在线| 久久av中文字幕片| 黄色成人在线观看网站| 伊人电影在线观看| 高清性色生活片在线观看| 在线观看av影片| 色偷偷福利视频| 超碰在线97免费| 免费看又黄又无码的网站| 欧美视频在线第一页| 熟女视频一区二区三区| 亚洲人一区二区| 日韩欧美在线电影| 色噜噜一区二区| 亚洲 国产 欧美一区| 福利电影一区二区| 国内精品免费**视频| 国产一区视频导航| 精品亚洲成a人在线观看| 免费观看一级特黄欧美大片| 日韩精彩视频在线观看| 久久av在线| 久久国产99| 日韩va欧美va亚洲va久久| 久久人人精品| 青青草视频一区| 精品无码三级在线观看视频| www中文字幕在线观看| 欧洲av无码放荡人妇网站| 亚洲爆乳无码专区| 久草综合在线观看| 日本成人免费网站| 手机福利视频欧美| 在线观看你懂得| 国产高清免费在线播放| 亚洲欧美视频一区二区| 在线黄色网页| 中文在线а√天堂| 午夜精品久久久久久毛片| 日韩三级不卡| 在线观看成人av| 久久99精品久久久久久水蜜桃| 久久久久久久久久码影片| 亚洲一卡二卡三卡| www.av中文字幕| 国产91白丝在线播放| 最近最新mv在线观看免费高清| 青青草视频免费在线观看| 拍真实国产伦偷精品| 涩涩视频在线免费看| 欧美成人黄色| 私拍精品福利视频在线一区| 色婷婷亚洲mv天堂mv在影片| 啦啦啦中文高清在线视频| 成熟老妇女视频| 国产一级大片| 国产福利在线| 欧亚av在线| 91成人噜噜噜在线播放| 不卡中文字幕| 国产九九精品| 国产精品亚洲综合一区在线观看| 久久青草欧美一区二区三区| 日韩美女视频19| 欧美午夜精品一区二区蜜桃| 日韩av在线播放资源| 国产精品私人影院| 日韩精品成人一区二区三区| 成av人片一区二区| 一区二区三区免费看视频| 欧美日韩另类国产亚洲欧美一级| 日韩av在线一区| 久久久噜噜噜久久久| 91人人爽人人爽人人精88v| 欧美最大成人综合网| 欧美亚洲日本一区二区三区| 黄色免费观看网站| 毛片在线看片| 国产精品1区| 中文字幕免费一区二区| 全色精品综合影院| jzzjzzjzz亚洲成熟少妇| 日产精品一区| 青青草综合网| 另类欧美日韩国产在线| 国产精品久久久久久久裸模| 欧美视频在线播放| 中日韩美女免费视频网址在线观看| 国产91精品高潮白浆喷水| 国内一区二区三区在线视频| 国产3p露脸普通话对白| 一区二区三区四区在线免费视频| 国产资源在线观看入口av| eeuss国产一区二区三区四区| 麻豆一区二区三区视频| 久草福利资源在线视频| 日本一级理论片在线大全| 国产成人tv| 日韩在线一区二区三区| 中文字幕国产一区| 欧美丰满美乳xxx高潮www| 久久97精品久久久久久久不卡| 国产精品污www一区二区三区| 凹凸国产熟女精品视频| 成人高清免费在线播放| 亚洲伊人精品酒店| 亚洲高清成人| 国产欧美一区二区在线观看| 免费成人美女在线观看| 好看的日韩av电影| 国产色91在线| 精品国产1区2区3区| 国产精品白嫩初高中害羞小美女| www亚洲国产| 在线午夜视频| 欧美天堂在线| 久久国产精品久久w女人spa| 亚洲女同ⅹxx女同tv| 国产丝袜一区视频在线观看| 91亚洲国产成人久久精品网站| 国产av麻豆mag剧集| 久操视频在线| 国产精品自拍区| 国产91在线精品| 亚洲网站免费| 天使萌一区二区三区免费观看| 亚洲人成7777| 最新国产成人av网站网址麻豆| 国产精品伊人日日| 啊啊啊射了视频网站| 亚洲高清黄色| 亚洲欧美bt| 午夜私人影院久久久久| 久久久久久久久久国产精品| 欧美性受黑人性爽| 八戒八戒神马在线电影| 希岛爱理av一区二区三区| 91日韩精品一区|