網(wǎng)上有很多關(guān)于聯(lián)動pos機風(fēng)控,網(wǎng)易易盾內(nèi)容風(fēng)控實踐的知識,也有很多人為大家解答關(guān)于聯(lián)動pos機風(fēng)控的問題,今天pos機之家(www.rcqwhg.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
聯(lián)動pos機風(fēng)控
導(dǎo)讀:隨著 AI 技術(shù)的發(fā)展,AI識別技術(shù)顯著提升了不良信息攔截的效率,從而幫助互聯(lián)網(wǎng)構(gòu)建起更加健康的內(nèi)容生態(tài)環(huán)境。然而 AI 技術(shù)面臨最嚴(yán)峻的挑戰(zhàn)來自于數(shù)據(jù)。如何從場景的角度更加深入地理解和分析數(shù)據(jù)場景的特點,如何從技術(shù)方案的角度更加完善地完成數(shù)據(jù)的定義、描述、收集、選擇、迭代和管理等環(huán)節(jié),如何從算法的角度更大程度地利用數(shù)據(jù)的價值,已經(jīng)成為深度網(wǎng)絡(luò)和 AI 技術(shù)發(fā)揮更大作用的關(guān)鍵和前提。
本文將從 Data-Centric AI 的角度出發(fā),分享網(wǎng)易易盾在內(nèi)容風(fēng)控方面的實踐和思考。主要包括以下 4 個方面:
Data-Centric AI 背景、意義和概念內(nèi)容風(fēng)控場景的業(yè)務(wù)和數(shù)據(jù)特點數(shù)據(jù)方案、數(shù)據(jù)管理和數(shù)據(jù)流程算法創(chuàng)新和數(shù)據(jù)價值之間的關(guān)系和作用分享嘉賓|胡宜峰 網(wǎng)易易盾 計算機視覺資深算法工程師
編輯整理|李聰玥 平安科技
出品社區(qū)|DataFun
01
Data-Centric AI 背景、意義和概念
一個完整的 AI 系統(tǒng)包括數(shù)據(jù)、算法/模型、解決方案和部署等多個方面。絕大多數(shù)精力都集中在數(shù)據(jù)以外的環(huán)節(jié)。這個現(xiàn)象的原因,歸結(jié)有二:
學(xué)術(shù)界有很多固定的公開數(shù)據(jù)集存在,數(shù)據(jù)相對來說是一個比較靜態(tài)的狀態(tài)。在工業(yè)界,大家往往有一個誤區(qū),認(rèn)為數(shù)據(jù)就等同于標(biāo)注。這兩方面的原因?qū)е挛覀儗?shù)據(jù)關(guān)注的程度不夠。對于常規(guī)的算法優(yōu)化或者模型訓(xùn)練過程,我們往往是在數(shù)據(jù)固定的前提下,追求在測試集上的高指標(biāo),但是如果把這種方式應(yīng)用在業(yè)務(wù)落地,尤其是內(nèi)容風(fēng)控場景,我們會發(fā)現(xiàn)在測試集上表現(xiàn)較好的模型在線上或真實場景上可能存在較大的反差。造成這個差距的一個重要原因就是沒有在數(shù)據(jù)流程上投入足夠的精力。這也是我們今天談到 Data-Centric AI 的一個核心點。
Data-Centric AI 這個概念最早是由 Andrew Ng 提出的,他在提出這個概念的同時,在非常大的范圍內(nèi)做了一個投票的調(diào)研,調(diào)研人群主要是一些科研人員和業(yè)界的從業(yè)人員,其中 80% 的人認(rèn)為相較于模型或者算法、解決方案等,數(shù)據(jù)起到的作用是最大的。這也在一定程度上表明了 Data-Centric AI 的意義。
他做了一個很形象的比喻,就好比是做飯,數(shù)據(jù)相當(dāng)于挑選食材和準(zhǔn)備食材的過程,但是這部分僅僅占據(jù)了 1% 的研發(fā)資源;模型訓(xùn)練或者解決方案等同于烹飪階段,這部分則占據(jù)了 99% 的精力和研發(fā)資源。這也反映了我們對數(shù)據(jù)的關(guān)注是不夠的。
尤其在內(nèi)容風(fēng)控等 AI 落地的場景中,一個表現(xiàn)優(yōu)秀的模型需要的是數(shù)據(jù)和模型的互動,兩者是互相促進的關(guān)系。優(yōu)質(zhì)的訓(xùn)練數(shù)據(jù)能提升模型在真實場景上的效果和泛化能力,好的模型反過來也能促進我們更加快速地生成、自動獲取或者人工標(biāo)注出更高質(zhì)量的訓(xùn)練數(shù)據(jù)。兩者是相輔相成,螺旋上升的過程。
這就是 Data-Centric AI 的核心觀點。
--
02
內(nèi)容風(fēng)控場景的業(yè)務(wù)和數(shù)據(jù)特點
接下來介紹一下內(nèi)容安全/內(nèi)容風(fēng)控場景。
1. 內(nèi)容風(fēng)控場景的業(yè)務(wù)
由于我們正處于一個海量互聯(lián)網(wǎng)數(shù)據(jù)的時代,隨著互聯(lián)網(wǎng)的發(fā)展,內(nèi)容載體從最開始的圖文發(fā)展到現(xiàn)在的文本、圖像、音頻、視頻和直播等等,在量和速度上都有著飛速的提升。
內(nèi)容生成、內(nèi)容制作的流程也更加敏捷和快速。一方面產(chǎn)生的數(shù)據(jù)量正在大幅增加,另一方面內(nèi)容制作發(fā)布的審核流程在不斷簡化,這樣一正一反帶來了很大的內(nèi)容安全隱患和壓力。針對可能出現(xiàn)的各種內(nèi)容安全隱患,網(wǎng)易易盾做了比較全面深入的研發(fā)。
這里只展示了一部分,主要包括色情廣告、違禁、涉政、暴恐、涉價值觀、增值服務(wù)、輔助能力等大類。這些大類當(dāng)中細分的方面非常多,包含的垂直領(lǐng)域和垂直類型也非常多。對于這些內(nèi)容,網(wǎng)易易盾從廣度、深度和粒度這三個方面都做了比較全面的覆蓋。
2. 內(nèi)容安全場景數(shù)據(jù)特點
相比于其他 AI 場景,內(nèi)容安全場景的數(shù)據(jù)有著如下一些明顯的特點。
首先是極端的長尾分布,內(nèi)容安全領(lǐng)域是面向海量互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)的,線上隨機流量中違規(guī)數(shù)據(jù)占比是極低的。因此用大海撈針來形容內(nèi)容安全的算法和服務(wù)一點都不為過。我們要從海量的互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)中去撈出這些占比極低的違規(guī)類型,還要保證撈出的數(shù)據(jù)的精確度。
第二個特點是數(shù)據(jù)中存在很多特征非常相似、可解釋性非常高,但不屬于違規(guī)的數(shù)據(jù)。在處理海量數(shù)據(jù)時,無論從視覺還是其它層面,都存在易誤判、極端的細粒度和難例挖掘的問題。
第三個特點是極端的小目標(biāo)識別,在識別違禁區(qū)域時,比如抽煙識別,抽煙動作是有明確特征的,但在一些很遠的場景中,比如拿著一個煙頭而并沒有去抽它,這也屬于抽煙識別的范疇。這個煙頭可能占的像素區(qū)域只有 3*3,也就是要識別一個 3 *3 的像素區(qū)域的標(biāo)簽是否違禁,決定性的違禁區(qū)域非常小,是一個極端的小目標(biāo)識別問題。
最后一個特點是極端的開放域識別,很多時候違禁類型并不是固定的,識別類別是多樣的、不確定的以及頻繁增加的。
除了這些問題之外,在內(nèi)容安全領(lǐng)域,還有其它一些問題,比如極端的域泛化,由于我們面向的是海量互聯(lián)網(wǎng)數(shù)據(jù),數(shù)據(jù)域的變化廣泛而頻繁。還有極端的模型防守對抗問題,內(nèi)容安全存在頻繁地跟黑灰產(chǎn)對抗的問題。黑灰產(chǎn)通過一些模型的攻擊,或是通過一些編輯,甚至PS等方式去做對抗,這也是我們頻繁遇到的一個問題。當(dāng)然我們也會存在一些比如類別邊界比較模糊、數(shù)據(jù)質(zhì)量差別大這種與其它 AI 場景類似的問題。
--
03
數(shù)據(jù)方案、數(shù)據(jù)管理和數(shù)據(jù)流程
1. 數(shù)據(jù)管理
數(shù)據(jù)管理和流程貫穿在初始模型訓(xùn)練、模型的迭代訓(xùn)練和模型測試整個環(huán)節(jié),主要包括數(shù)據(jù)的刻畫、收集、生成與拓展、標(biāo)注、增強、選擇、清洗、分析和迭代等等。這些環(huán)節(jié)不是孤立的,而是互相銜接補充以及包含的。
額外講一下模型測試這個環(huán)節(jié),我們從 Data-Centric AI 的角度來看,模型的測試其實就是測試數(shù)據(jù)選擇的一個過程。選擇數(shù)據(jù)要對齊線上最終的落地場景的數(shù)據(jù)分布,要對齊一些特定的歷史反饋。這也是從數(shù)據(jù)的角度去看模型測試。
2. 數(shù)據(jù)刻畫
我們啟動一個業(yè)務(wù)時,數(shù)據(jù)刻畫起到了非常重要的作用。如果數(shù)據(jù)的定義和刻畫考慮不全面,一方面會增加識別和迭代的難度,另一方面也會增加數(shù)據(jù)標(biāo)注的成本,影響可用性。
所以需要有比較全面的評估,構(gòu)建多級標(biāo)簽的體系,分析標(biāo)簽的包含、互斥、歧義的關(guān)系,對識別范圍進行有效的擴展,對相似的易誤判的標(biāo)簽進行分析,考慮標(biāo)簽的通用性,同時細化邊界和細節(jié)描述,關(guān)注標(biāo)注復(fù)雜度。
標(biāo)注數(shù)據(jù)刻畫這個環(huán)節(jié)可能偏經(jīng)驗一些,我們很難詳細地把經(jīng)驗說清楚,但是我們的目標(biāo)是希望降低模型識別的難度、模型迭代的難度以及降低標(biāo)注的難度,并提升標(biāo)注的可用性。
3. 數(shù)據(jù)收集
在有了詳細的數(shù)據(jù)刻畫和描述的積累之后,我們就需要對數(shù)據(jù)進行收集。一方面模型的冷啟動需要數(shù)據(jù)收集,另一方面數(shù)據(jù)的收集和補充也貫穿在整個模型迭代過程中,數(shù)據(jù)收集需要考慮擴充數(shù)據(jù)分布范圍、對齊應(yīng)用場景數(shù)據(jù)分布、提高標(biāo)注的命中率和針對性、提高標(biāo)注質(zhì)量等幾方面問題。
以上幾種方式共同使用,可以提高標(biāo)注的命中率和針對性,從而提高標(biāo)注樣本的質(zhì)量。
數(shù)據(jù)精細化的管理包括三方面的內(nèi)容,一個是數(shù)據(jù)生成,一個是數(shù)據(jù)的自動獲取,即標(biāo)簽的自動獲取,也可以簡單地理解成模型打標(biāo),還有一個是人工的標(biāo)注。在正式做數(shù)據(jù)標(biāo)注之前,我們可以問自己一個問題,這個數(shù)據(jù)是不是真的需要標(biāo)注。
4. 數(shù)據(jù)生成與拓展
數(shù)據(jù)生成也是一個比較重要的環(huán)節(jié),因為有部分業(yè)務(wù)場景的數(shù)據(jù),不一定非要有數(shù)據(jù)的標(biāo)注,再進行模型的初始訓(xùn)練的冷啟動方式。數(shù)據(jù)生成是能讓模型快速地自動獲取初始能力的方式。當(dāng)然這里的數(shù)據(jù)生成并不是狹義上的理解,比如我們通過各種分割加貼圖的方式去做貼圖或者用圖像生成的方法去生成數(shù)據(jù),我們生成的初衷是希望模型有快速的初始能力。所以通過一些無監(jiān)督和小樣本學(xué)習(xí)的方式,讓模型有快速地初始識別的能力,在我們看來其實也屬于生成和冷啟動的范疇。
此時生成的數(shù)據(jù)有一個很大的特點,數(shù)據(jù)分布是非常有局限性的,可能具有初步的能力,但是能力比較有限。從生成的數(shù)據(jù)到正式數(shù)據(jù)分布的擴展是很重要的環(huán)節(jié)。以 Logo 識別為例,我們結(jié)合技術(shù)方案,設(shè)計跨任務(wù)的數(shù)據(jù)增廣擴展的模塊可以很好地實現(xiàn)生成數(shù)據(jù)到真實數(shù)據(jù)分布的擴展。所以在數(shù)據(jù)標(biāo)注之前,數(shù)據(jù)生成是非常重要的一個環(huán)節(jié)。但也并不是所有的業(yè)務(wù)場景都可以采用數(shù)據(jù)生成冷啟動。
5. 數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注有一些需要注意的點。
首先為了降低標(biāo)注的難度,我們需要細化標(biāo)注文檔、細節(jié)、邊界解釋等。
第二點,為了降低標(biāo)注的成本,提高標(biāo)注的有效性,模型的預(yù)標(biāo)注非常重要,模型對標(biāo)注的數(shù)據(jù)有一定的識別效果,如果全部從頭去標(biāo),有很大的標(biāo)注浪費,因此尤其是對一些復(fù)雜場景的模型標(biāo)注,用模型的預(yù)標(biāo)注結(jié)合人工標(biāo)注是非常重要的一點。
第三點,就是希望提高標(biāo)注的命中率和有效性,比如抽煙行為的標(biāo)注,希望能標(biāo)出抽煙的行為,如果隨機選擇數(shù)據(jù)去標(biāo)注,絕大多數(shù)都是正常的,標(biāo)出這些數(shù)據(jù)是沒有什么用的,所以要結(jié)合數(shù)據(jù)的選擇和清洗去標(biāo)注。
第四點是從可信度的角度去考慮,比如在標(biāo)注數(shù)據(jù)時,考慮的可能是違禁或者違規(guī)相關(guān)的屬性,如果不關(guān)注那些與違禁無關(guān)的屬性,可能會導(dǎo)致模型訓(xùn)練是有偏的。所以從可信度的角度來說,要降低這種數(shù)據(jù)的偏向,對于一些不關(guān)心的屬性,也要做一個均勻的采集和采樣。
第五點是希望提高標(biāo)注的準(zhǔn)確率和可用性,需要一些交叉驗證和標(biāo)注質(zhì)檢的方式。
第六點是很重要的一點,與第二點類似,標(biāo)注和模型訓(xùn)練需要高頻交叉進行,不建議一次提很大量級的數(shù)據(jù)去做標(biāo)注,因為可能會浪費。我們希望用不是很大量級的數(shù)據(jù)去做高頻的交互,這樣可以降低數(shù)據(jù)標(biāo)注的開銷,提高數(shù)據(jù)標(biāo)注的可用性。
6. 數(shù)據(jù)增強
數(shù)據(jù)增強這塊大家都非常熟悉,這里就不做詳細的介紹了。
7. 數(shù)據(jù)選擇與清洗
精細化的數(shù)據(jù)流程當(dāng)中比較核心的點是數(shù)據(jù)的選擇和清洗。數(shù)據(jù)可能是生成的,或是模型打標(biāo)的,也可能是人工打標(biāo)的。我們要做的事情是區(qū)分什么時候能生成,什么時候需要模型去標(biāo)注,什么時候需要人工標(biāo)注。在人工標(biāo)注這塊還要考慮一個很重要的點是用什么樣的數(shù)據(jù)去標(biāo)注才是最好的,能更大地利用標(biāo)注的有效性,降低標(biāo)記資源的開銷。
數(shù)據(jù)的選擇與清洗,是比較重要的環(huán)節(jié),這里應(yīng)用的前提是模型已經(jīng)越過冷啟動階段,有比較不錯的能力,到達深層次迭代的環(huán)節(jié)。數(shù)據(jù)的選擇應(yīng)用的環(huán)節(jié)主要包括選擇哪些數(shù)據(jù)直接應(yīng)用到模型訓(xùn)練、選擇哪些數(shù)據(jù)進行數(shù)據(jù)標(biāo)注、從已有訓(xùn)練集中剔除哪些(簡單的)訓(xùn)練數(shù)據(jù)、如何構(gòu)建半監(jiān)督unlabel data數(shù)據(jù)集等等。這里我們考慮的點主要是上圖中所列的五個方面。在選擇數(shù)據(jù)進行標(biāo)注的時候我們考慮的一般是uncertainty、diversity、distribution三個方面,我們肯定是要選擇不確定性高、豐富度高、并且數(shù)據(jù)分布廣泛的數(shù)據(jù)用于標(biāo)注。在應(yīng)用模型打標(biāo)的方面,我們還要額外考慮Accuracy和Balance的問題。
針對上圖左側(cè)所列這些熱點領(lǐng)域的研究和應(yīng)用,在內(nèi)容安全的場景中都取得了明確的收益。比如Active Learing,對應(yīng)于Uncertainty和Diversity的要求。然而當(dāng)你遇到的是完全adversarial的樣本,或是當(dāng)對域外的數(shù)據(jù)完全無召回能力的時候,通過結(jié)合OOD和few shot learning的方法可以進一步提升域外數(shù)據(jù)的召回能力,從而對應(yīng)于distribution的要求。在我們提升樣本accuracy的時候,置信學(xué)習(xí)、noisy training的方法也是有效的提升標(biāo)簽準(zhǔn)確率的方法。
這樣,三條鏈路就非常清楚了,什么數(shù)據(jù)去生成,什么數(shù)據(jù)去標(biāo)注,什么數(shù)據(jù)直接用,是一個半自動化的過程。這樣相較于隨機采數(shù)據(jù)去標(biāo)這種最原始的方式,不僅減少了標(biāo)注資源,效果也會有一個量級的提升。這樣,從數(shù)據(jù)角度,我們可以更好更快地去響應(yīng)需求,提升模型的效果。當(dāng)真正去做業(yè)務(wù)落地的時候,很難做到全自動,肯定也要有一些人工的數(shù)據(jù)分析。
數(shù)據(jù)分析的內(nèi)容包括當(dāng)前版本的整體進度召回的情況,特定類型的召回情況,歷史反饋的召回情況,模型版本之間的差異以及易誤判類型的歸納。我們會做一個定向的數(shù)據(jù)補充,與數(shù)據(jù)生成、數(shù)據(jù)選擇清洗是互補的,這樣可以更好地去完成數(shù)據(jù)運作的流程。還包括一些特定的場景分析,比如這個類型可能在某個固定的場景下的效果不好,這時就需要人工參與以及一些經(jīng)驗的總結(jié)。
8. 數(shù)據(jù)迭代
關(guān)于數(shù)據(jù)迭代過程,在此不做詳細討論。前面介紹的數(shù)據(jù)標(biāo)注、清洗、選擇、增強、分析其實都結(jié)合在耦合了半監(jiān)督和自監(jiān)督的整個數(shù)據(jù)迭代的框架里。核心點是我們希望無論是數(shù)據(jù)的生產(chǎn)、模型的打標(biāo)還是人工的打標(biāo),都能最大程度地發(fā)揮數(shù)據(jù)的價值。在盡量小的開銷,盡量快的速度,盡量短的周期和盡量高的頻率的前提下,最大程度去發(fā)揮數(shù)據(jù)的價值。
9. 數(shù)據(jù)測試與驗證
內(nèi)容風(fēng)控場景可能用到非常多的技術(shù)手段,但是歸根到底可以理解為一個識別問題或者內(nèi)容理解問題。數(shù)據(jù)測試需要對齊我們的任務(wù)。測試的內(nèi)容,一個是數(shù)據(jù),一個是指標(biāo),一定是要對齊最后的目標(biāo)。測試的數(shù)據(jù)要對齊最終的目標(biāo),這個很好理解。測試的指標(biāo)也是要對齊最后的應(yīng)用。一些中間的環(huán)節(jié),包括一些很偏算法的指標(biāo),不能很好地反映出最終端到端的效果。數(shù)據(jù)和指標(biāo)都對齊,才能保證不會出現(xiàn)離線側(cè)效果很好而線上效果很差這種情況。
上圖是整體的內(nèi)容安全的 AI 架構(gòu)。
除了數(shù)據(jù)之外,算法側(cè)還包括算法模型的優(yōu)化、算法的解決方案的優(yōu)化、速度性能的優(yōu)化。這三個方面也是非常重要的思考點。我們在做任何一個算法時,都是從這四個方面共同去努力的。數(shù)據(jù)的管理和價值的利用也為后續(xù)的幾個方面提供了廣闊的空間。
以上從系統(tǒng)化、流程化、精細化的數(shù)據(jù)工作介紹了我們在內(nèi)容安全領(lǐng)域?qū)?Data-Centric AI 的理解和實踐,我們的目標(biāo)是,希望無論數(shù)據(jù)的生成、模型的打標(biāo),還是人工的打標(biāo),都能在盡量減小開銷的前提下,最大程度地發(fā)揮數(shù)據(jù)的價值。
--
04
算法創(chuàng)新和數(shù)據(jù)價值之間的關(guān)系和作用
1. 自監(jiān)督
自監(jiān)督這個方向,有著非常強的任務(wù)相關(guān)性和場景相關(guān)性,所以我們?nèi)?gòu)建任務(wù)和場景相關(guān)的自監(jiān)督基礎(chǔ)模型集合是非常有效的從最開始的階段就去發(fā)揮數(shù)據(jù)價值的一種方式。比如武器大類,有非常多種類的違禁武器;服飾大類,有宗教服飾、公職服飾、暴恐服飾等。我們發(fā)現(xiàn),在某個大類上做一個統(tǒng)一的基礎(chǔ)模型是非常有效的。做一個具體垂類的任務(wù),我們希望在這個大類有一個比較好的或者幾個比較好的初始模型,作為以后這個方向具體的新業(yè)務(wù)模型的一個初始。
2. 半監(jiān)督
我們在業(yè)務(wù)中發(fā)現(xiàn),半監(jiān)督的方法很多時候解決的是穩(wěn)定性的問題,難以實現(xiàn)域的跨越。針對這個問題,我們也做了一些嘗試,篇幅有限就不在此介紹了。
3. 弱監(jiān)督
弱監(jiān)督這個方向,包括弱監(jiān)督的定位、檢測、分割等等,能幫助我們更加充分地發(fā)掘出更細粒度的內(nèi)容信息,從而提升識別的效果。這個方向如果和解決方案聯(lián)動,有非常多的方式可以去挖掘。比如部分場景問題,用分類標(biāo)簽就可以拿到非常好的分割結(jié)果。也就是說從這種標(biāo)注難度非常低的監(jiān)督入手,能獲取到更細粒度的監(jiān)督信息,再結(jié)合解決方案的改進,是一個非常好的提升數(shù)據(jù)利用價值的方向。
另外,無監(jiān)督,開放域識別、小樣本等等都會包括在整個數(shù)據(jù)流程中,它們不能直接地解決一個業(yè)務(wù)問題,但可以在業(yè)務(wù)場景中的某些環(huán)節(jié)起到非常大的作用。
--
05
問答環(huán)節(jié)
Q1:模型預(yù)標(biāo)注和人工智能標(biāo)注怎樣才能有效地結(jié)合?
A1:我認(rèn)為結(jié)合方式是可以在構(gòu)建標(biāo)注系統(tǒng)的時候,有一個預(yù)標(biāo)注的功能。我們標(biāo)注的時候并不一定是從頭去標(biāo)注,因為有些標(biāo)注比如 OCR 的標(biāo)注,或是一些很細的類別的標(biāo)注,如果從頭去標(biāo),復(fù)雜度非常高。從標(biāo)注的人員來看,如果有一個預(yù)標(biāo)簽,模型對標(biāo)注數(shù)據(jù)肯定是有識別能力的,當(dāng)然不包括冷啟動階段,但是絕大多數(shù)是在中間的這樣一個迭代的環(huán)節(jié)中。如果有預(yù)標(biāo)簽,標(biāo)注人員一掃過去,發(fā)現(xiàn)模型給的是對的,就不用再做操作了。如果有標(biāo)注都要人工去點,操作的復(fù)雜度和操作的差距都是非常大的。所以模型的預(yù)標(biāo)注是在開始做標(biāo)注系統(tǒng)的時候就需要考慮的一個功能。
Q2:請問對于類別邊界模糊的問題,除了盡可能地將標(biāo)簽體系建立完備之外,從模型算法的角度還有經(jīng)驗可以分享嗎?是否可以考慮采取相似圖的檢索的方式進行圖像的鑒別和分類呢?
A2:我覺得這也是非常好的一個問題。邊界模糊在算法里是細粒度分類的問題。首先,分類標(biāo)準(zhǔn)一定要清晰,否則標(biāo)注是標(biāo)不出來的。第二個需要從解決方案去做設(shè)計。比如在一個模型里,有 A、B、C 三個類型,其中 C 是正常,A 和 B 是兩個非常近的類型,但A是違規(guī)的,B 是不違規(guī)的,那其實 B 和 C 是一類的,A 是一類的。如果你的模型需要區(qū)分 A 和 BC 的話,就會出現(xiàn)一個非常大問題,即 AB 是屬于兩類的,而它們的類間距非常小,這其實是在給模型找麻煩。我覺得可以很好地去理解這樣一個問題,在流行的流程設(shè)計中,我們可以做一些難易的區(qū)分,也就是前置的一些模型僅去區(qū)分 C 和 AB,但在后面的細粒度的模型當(dāng)中,只是做細粒度的一個分類,并不需要去區(qū)分,數(shù)據(jù)分布劃開了之后,針對性就會更強,模型效果也會有明顯的提升。從模型設(shè)計上,這種層級的難易區(qū)分的設(shè)計和考慮是非常重要的,這同時也是從速度的角度去考慮的。
你提到檢索環(huán)節(jié)是肯定的,現(xiàn)在最好的方式就是模型加庫,單對模型來說,即使我們現(xiàn)在的流程做得很完善,數(shù)據(jù)運作的流程,包括如何生成數(shù)據(jù),如何去打標(biāo),如何機器打標(biāo)做得很快,其實也有一個周轉(zhuǎn)的過程,很難做到實時的響應(yīng)。模型加庫的方式,從特征檢索的角度來看,有很快的響應(yīng)的過程,但是檢索也會有它的問題,兩者之間是一個互補的關(guān)系。第一個是標(biāo)注邊界細化這種方向,第二個是流程解決方案的設(shè)計方向,第三,你說的檢索也是一個比較通用的方向。所以,我覺得模型和庫的配合也已經(jīng)是非常重要的一點。
今天的分享就到這里,謝謝大家。
|分享嘉賓|
胡宜峰
網(wǎng)易易盾 計算機視覺資深算法工程師
胡宜峰,畢業(yè)于中國科學(xué)技術(shù)大學(xué),具有多年AI算法研發(fā)經(jīng)驗。研究方向包括圖像分類、目標(biāo)檢測、實例分割、圖像檢索、視頻深度鑒偽等,在計算機視覺方向和內(nèi)容安全領(lǐng)域有豐富的算法研究和項目研發(fā)經(jīng)驗。
|DataFun新媒體矩陣|
|關(guān)于DataFun|
專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請超過2000位專家和學(xué)者參與分享。其公眾號 DataFunTalk 累計生產(chǎn)原創(chuàng)文章800+,百萬+閱讀,15萬+精準(zhǔn)粉絲。
以上就是關(guān)于聯(lián)動pos機風(fēng)控,網(wǎng)易易盾內(nèi)容風(fēng)控實踐的知識,后面我們會繼續(xù)為大家整理關(guān)于聯(lián)動pos機風(fēng)控的知識,希望能夠幫助到大家!