抖音的算法,是如何把你束縛在信息繭房里的?
今天vv直選的考官就和大家一起探索抖音算法的秘密:
一、背景
隨著互聯網時代(尤其是移動互聯網)的到來,信息處于類似《三體》中“技術爆炸”的“信息爆炸”狀態。
每天,EB的信息量誕生在互聯網的各個角落。預計到2025年,全球每天產生的數據量將達到491EB(1 EB=1024 PB=1048576 TB)。
在這種情況下,消費者在信息獲取方面無疑會變得更加主動和豐富。
但富有并不意味著有效。
紙媒時代,依然有專業編輯對內容進行篩選排版,然后“分銷”給消費者。
但對于互聯網產品來說,即使內容再豐富,如果用戶不感興趣也是無效的。
“效率”永遠是商業社會的本質之一。意味著低效率隨時可能落后或者被淘汰。
為了解決這個問題,
淘寶在2013年首次提出了“千人千面”的概念。依托淘寶十年發展積累的龐大數據庫,從細分品類中抓取符合買家興趣的商品,并優先展示。
而每一個在淘寶上購買或瀏覽商品的消費者,都會被平臺打上標簽,比如年齡、地域、客單價、收藏偏好等。
不同的標簽,在千人千面的模式下,用戶自然會看到不同的產品。
更高效的內容分發方式,從野蠻生長走向精細化運營時代。
在核心思想是“算法驅動”的張一鳴手里,今日頭條、抖音等產品更是這種思想下養出來的災難。
所以,作為一個互聯網人,即使不用手寫編程算法,了解相關算法的知識,以及相關內容分發和推薦機制背后的基本原理,也有利于認知上一個新的臺階。
二、算法推薦系統的兩個核心
(a)為什么抖音如此令人上癮?
很多人可能都有這樣的經歷:
在不同的場景(家里、地鐵上、工作中)和不同的時間點(早上、中午、晚上),即使是同一個流派的電影,收到的內容其實也略有不同。
比如白天大部分會收到幽默的內容,晚上會收到略顯懸疑的影視片段。
無論何時打開抖音,它都能讓用戶沉浸其中。好像感覺不到時間的流逝,往往一下子就過了一兩個小時。
你會發現抖音似乎很了解你,因為所有推送給你的內容都是你喜歡看的。
拋開抖音的產品設計,沉浸式的消費體驗,短平快的內容節奏等等。,還涉及算法推薦機制、運營策略等因素。
而內容的個性化分發,本質上可以用白話來解釋:
讓喜歡看女生的用戶看到包含女生的內容。
但在現實世界中,放眼互聯網,能做好這一點的公司其實很少。
那么難點在哪里呢?
(2)標注內容沒有你想的那么簡單。
很難定義標簽和標注內容。
在標記一段內容之前,您需要做的第一件事是定義標簽。
就是明確什么是蘋果,什么是梨,而不是把蘋果叫做梨。
一篇內容通常包括一級分類、二級分類、三級分類、標簽等層次。
如動漫>:漫>:火影忍者>:火影忍者等等。
對于這些具有普遍認知的范疇和標簽,通常最好是定義一下。
但是搞笑,漂亮之類的標簽是因人而異的。
因為每個人的段子不一樣,審美不一樣。
有哪些內容又搞笑又好看?
蘿卜各有所愛。標記之前,卡在定義上。
實際上,這里涉及到兩個概念——實體標簽和語義標簽:
1.實體標簽
廣州是廣州,上海是上海;是馬云,淘寶是淘寶。
都是確定的實體,通常不同的人之間不會有太多的歧義。
2.語義標簽
如沙雕、美女、奇葩等詞,沒有明確的指定對象。
不同的人有不同的認知,所以標記困難通常出現在語義標簽的定義上。
語義推薦效果是檢驗一家公司NLP(自然語言處理)技術水平的試金石。
不同的公司根據自己的業務能力或需求,對標簽粒度有不同的要求。
比如有的公司在拆分成火影忍者的時候并沒有拆分下來,直接用這個詞作為最小粒度標簽。
與這部動畫相關的內容都可以貼上火影忍者的標簽,但難免會有一刀切的感覺,對后續操作也會有影響。
比如有的用戶想看火影忍者或者搜索火影忍者,火影忍者里的其他都是推送搜索的。
而有些公司則繼續拆:比如給鳴人>:鳴人、佐助、木本櫻等實體標簽。
所以可以看出,標簽粒度越細,推薦的內容越精準,需要的資源就越多。
即使把全公司的閱卷團隊拉到一個會議室,通過統一的培訓和講解,一個月后,大家終于對什么是美女有了統一的認知,審美也逐漸一致。
這樣閱卷才能順利進行?不要!
我們先喝一口水,然后繼續聊。
(C)用戶標簽:可能是最難的部分。
1.用戶嘗起來像一個很難哄的女朋友。
比內容標簽更難的是用戶標簽。
因為鳴人就是鳴人,一旦貼上這個內容的標簽,就不會變成海賊王了。
貼標可以通過人工打標和機器訓練來完成。
用戶不一樣。可能這個月他喜歡看火影忍者,算法推薦機制也給他匹配了相關內容。但是下個月他可能會因為朋友或者同事的推薦而開始看《海賊王》。
如果算法還沒反應過來,繼續向他推送鳴人的相關內容,而此時這些內容對他來說是無效的,從而影響內容的分發效率。
比如胡蘿卜一直是胡蘿卜,但是用戶的口味一直在變。
我今天想喝湯,明天想吃肉。
其實涉及到“推薦縮小”的問題。算法機制越差,推薦內容越有可能被縮小。
不小心點了幾篇,算法就會默認你喜歡這類內容,然后一直推送相關信息,不能根據用戶需求靈活變化。
在這個時代,無論使用哪種內容產品,“信息繭房”的現象都不可避免地會出現,但實際的產品體驗效果在成熟的NLP技術和初級水平之間還是有很大差距的。
2.
掌握用戶的基本信息在做用戶標簽之前,你需要掌握與用戶相關的信息,通常包括性別、年齡、所在地、興趣愛好等。
1)性別有助于分發性別屬性明顯的內容,比如男生推送運動,女生推送美容護膚;
2)年齡也是如此:向年輕人推送動漫、游戲等內容,向老年人推送醫療保健、健康資訊;
3)位置用于推送區域熱點相關信息:如果上海爆料推送給上海的用戶,似乎北京限行對廣州的用戶影響不大。
以上三者通常可以通過用戶自動填寫并授權訪問位置信息來獲得,不會有大的變化。
3.掌握用戶的興趣偏好。
如上所述,用戶的興趣偏好是用戶標簽制作的難點。
獲取用戶興趣和偏好的方式是根據用戶消費過的內容匹配相應的標簽。通常采用以下方式進行定位:
1)過濾噪音:如果用戶被標題黨內容吸引,但停留時間過長,說明用戶對內容綁定的標簽不感興趣,從而過濾標題黨;
2)熱點降級:對于一些社會熱點和突發新聞(如某明星出軌),雖然用戶在短時間內瀏覽了相關信息,但并不意味著用戶一定對“娛樂”內容特別感興趣,有必要對用戶的“娛樂”興趣偏好進行降級;
3)時間衰減:如上所述,用戶的興趣會發生轉移,因此推送策略需要更偏向于新的用戶行為;
4)懲罰呈現:如果一篇推薦給用戶的文章沒有被點擊,那么該內容的相關特征(如內容分類和標簽)的權重將會降低。
舉一個非常簡單的例子:
例如,當一個新注冊用戶(女,25歲,上海人)刷抖音時,用A-A和A-B方法測試算法。
先連續推送兩個視頻片段(A-A),用戶可以完整觀看,贊,評。
其次,視頻片段推送后,母嬰內容(A-B)推送。用戶僅觀看視頻剪輯,但母嬰內容被移除。
那么就意味著用戶對“電影片段”的內容興趣偏好較高,對“母嬰”標簽的內容興趣偏好較低。
4.不同內容類型的推薦權重
我們都知道,對于集成平臺,通常有不止一種類型的內容。比如今日頭條就包含了幾種不同形式的內容,比如長圖文、小視頻、短視頻、問答、微頭條。
即使是同一個標簽,比如“美顏”,不同內容類型的推薦權重都一樣嗎?這也是算法推薦機制需要考慮的問題。
三、如何衡量推薦系統的好壞
推薦內容是否準確,通常可以直接從數據中分析出來。
CTR(點擊率)、花費時間、點贊、評論、轉發等“可量化指標”。
比如Y=F(X1,X2,X3),Y代表可以曝光的內容權重,x代表贊、評論等實際參數。
評論的影響力權重通常大于贊的影響力權重,不同平臺因產品差異對參數的權重設置也不同。
但由于各自賬號的“置信度”不同,即使不同用戶喜歡同一內容,對內容的影響力權重也不同。比如在知乎這樣的大V,權重明顯和普通賬號不一樣。
但有時數據是有缺陷的。對于低俗、頭條化、色情化的內容,如果短時間內吸引大量用戶點擊瀏覽,算法能否判定為好內容,增加推送量?
答案顯然是否定的。
因此,主要有以下需要抑制和降低功率的內容:
1)抑制廣告和低質量處理內容;
2)查禁色情、低俗、惡心的內容;
3)標題黨、低質量賬號內容降級等。
基于社會責任、政策法規等因素,平臺需要對這部分內容進行打壓和降級,插入重點時事新聞。
這些算法都不能獨立完成,需要通過運算來協調。很多信息平臺會有專門的首頁運營團隊,對內容進行人工干預。
APP每日通知欄的推送內容,大部分也是算法+人工的方式推送。
四、總結
回到開頭:讓喜歡看女生的用戶看到包含女生的內容。
要實現這個簡單的句子,你需要做到:
1.內容標簽的準確定義和標記
因為不同的人對同一個語義標簽有不同的認知。
2.用戶標簽的精確匹配
很明顯用戶對哪種“妹子”的偏好更高:長發的女生?還是短發女生?不管是南方人還是北方人,等等。
用戶的標簽建立在內容標簽輸入足夠準確的前提下,一步錯一步。
如果不能準確判斷內容標簽,那么基于內容標簽的用戶標簽就不可信。
3.
算法訓練為了訓練機器自動標記,通常需要幾周時間來訓練一個“標簽”。
通常情況下,標題關鍵詞是用來標記內容的,但有時標題與文章或視頻中表達的所有內容有較大差異,所以標記很可能是不準確的,需要人工檢查來判斷其準確性。
總結一下,現在算法分發幾乎是所有搜索引擎、資訊軟件、內容社區、社交軟件等產品的標配。
算法代表了一種系統地描述和解決問題的戰略機制。
所以,無論你是產品還是運營,了解內容平臺的基本算法原理,無論是對產品推薦機制的設計,還是對平臺運營策略的構建,都會有所幫助。
如果您的問題還未解決可以聯系站長付費協助。

有問題可以加入技術QQ群一起交流學習
本站vip會員 請加入無憂模板網 VIP群(50604020) PS:加入時備注用戶名或昵稱
普通注冊會員或訪客 請加入無憂模板網 技術交流群(50604130)
客服微信號:15898888535
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若內容侵犯了原著者的合法權益,可聯系站長刪除。