張駿峰,小蟻科技首席架構師,負責小蟻AI圖像相關算法架構。主要包括:小蟻智能攝像機的智能報警服務、小蟻智能行車記錄儀的輔助駕駛ADAS服務、小蟻運動相機App的圖像風格遷移技術以及小蟻微單App的圖像視頻編輯技術。其團隊包括移動開發(fā)、前端、后臺、算法,成員分布在北京及以色列。張駿峰于2015年加入小蟻,此前,張就職于微軟長達14年,參與過Windows, .Net Framework, MSN, Office, Lync, Skype等產品的研發(fā)工作。
小蟻科技成立于2013年,是一家年輕的互聯網硬件企業(yè)。小蟻專注探索智能、可穿戴、移動化的新型視頻類智能電子產品的開發(fā),產品包括小蟻智能攝像機系列、小蟻行車記錄儀系列、小蟻運動相機系列、小蟻微單相機等智能硬件產品,以及和谷歌合作的YI Jump 360°3D VR拍攝設備。同時,小蟻還有一系列的移動應用和服務,幫助用戶更好地使用小蟻設備。
CSDN:駿峰您好,小蟻的產品主打視覺。那么首先請您向大家介紹一下,在小蟻智能攝像機上,與AI相關的技術有哪些?
張駿峰:我們在小蟻智能攝像機上提供了多種智能服務。
智能報警
大部分的智能攝像機都提供移動偵測服務。當攝像機檢測到畫面有大幅變動的時候,服務器會向用戶推送一條報警消息。
小蟻智能攝像機提供了同樣的服務,同時,在報警的時候,向服務器上傳了一張圖片,和一段6秒鐘的視頻。這樣即使有人把攝像機拿走了,用戶還是可以看到發(fā)生了什么事。
傳統(tǒng)的移動偵測方案,靈敏度是一個很難解決的問題。如果靈敏度太高,用戶會收到過多的無效報警,可能會錯過重要信息。如果靈敏度太低,會有重要事件發(fā)現而用戶收不到報警的情況。我們提供了一個拉桿,用戶可以在高,中,低靈敏度選擇。
我們還提供了一種人形檢測的升級方案。當用戶把這個升級方案的開關打開后,如果檢測到畫面有大幅改動,攝像機會繼續(xù)對畫面進行進一步檢測,只有在攝像機認為畫面中有人,才會通知服務器給用戶推送報警信息。這樣可以大大減少誤報的情況。
小蟻智能攝像機還提供了寶寶哭聲檢測。如果攝像機檢測到持續(xù)的寶寶哭聲,也會向用戶推送報警。
手勢識別
小蟻智能攝像機還提供了手勢識別功能。當用戶在攝像機面前做出“攤開手掌-然后握拳”的組合動作時,攝像機會自動錄制10秒視頻,推送給手機App用戶。我家小孩特別喜歡這個功能,有事沒事他就會試一下這個功能,然后給我表演一段僵尸舞。
選擇“攤開手掌-然后握拳”這樣一個組合,是為了減少誤觸發(fā)。
我們還在研究其他AI技術,比如人臉檢測,人臉識別,物體識別,如何經濟實惠地讓這些新技術給用戶帶來價值。
CSDN:除智能攝像機之外,小蟻也發(fā)售行車記錄儀。那么在小蟻行車記錄儀上,與AI相關的技術有哪些?
張駿峰:我們在小蟻行車記錄儀上為用戶提供ADAS智能安全提醒系統(tǒng),有效提供安全提醒并實時糾正駕駛行為。主要是兩個功能:車道偏移預警,前車距離監(jiān)測
車道偏移預警
當車輛在高速上行駛時,如果行車記錄儀檢測到車輛偏移道路時,會提醒用戶車輛已經偏移道路。
前車距離監(jiān)測
行車時,如果行車記錄儀檢測到離前車距離越來越近,超過一定閾值時,會提醒用戶注意保持車輛距離。
CSDN:在上述兩種產品的模型訓練過程中,訓練集與測試集從何而來,采用何種網絡及框架,在系統(tǒng)調優(yōu)方面有何技巧?
張駿峰:開源的數據集和開源代碼提供了基礎的訓練集和測試集。
但是這樣的數據集訓練出來的模型,放在小蟻的產品上,出來的效果不是很滿意。
我們是有一批內測攝像頭,免費送給用戶。用戶看到有意思的情況,分享給我們。內測用戶很多是小蟻員工。我們根據用戶提供的數據,調整模型,更新算法。
在實際產品上,我們采用的是一種“端+云”的混合方式。端上先做一部分篩選,云上再做進一步的處理。
限于硬件的計算能力,端上目前是用傳統(tǒng)方法處理。
云上,我們現在使用的是YOLO模型,基于我們自己的情況,做了一些優(yōu)化。
CSDN:您認為圖像分割、物體識別、目標跟蹤這一系列技術的難點在哪里?
張駿峰:我們遇到的困難主要有兩點:1.數據,2.優(yōu)化
數據
雖然現在有很多開源數據集,但是,這些數據集是被用于學術界創(chuàng)新和研究的benchmark數據集。這些數據和真實場景下的用戶數據差別很大,場景也不足夠豐富。用開源數據訓練出來的模型,識別率往往不夠理想。因此,真實場景下的海量標注數據集是非常關鍵的。
小蟻產品的用戶量很大,用戶使用小蟻產品的場景各種各樣,環(huán)境也各不相同。有些用戶的使用場景也讓我們大開腦洞。限于我們的人力物力,我們優(yōu)先處理主要用戶場景。
優(yōu)化
如前所述,小蟻采用的是一種“端+云”的混合方式。不管是端還是云,優(yōu)化始終是我們大的挑戰(zhàn)。
在端上,由于硬件限制,無法運行深度神經網絡,我們目前使用的是傳統(tǒng)方法。即使這樣,如何更快的處理視頻,也是很大的挑戰(zhàn)。
在云上,我們用GPU服務器運行深度神經網絡,費用很高。小蟻的用戶量很大,用GPU服務器處理,成本壓力很大。
我們迫切需要技術的發(fā)展,能夠把不影響準確率太多的前提下,把處理成本降下來。
CSDN:除了小蟻目前正在做的,您對圖像跟蹤、識別這一系列技術的落地方向還有何構想?
張駿峰: AI技術現在已經很強大了。AlphaGo顛覆了人們對AI的理解。人臉識別的準確率不斷被刷新。但是,AI用到真正的場景上,還是非常困難的。首先是數據問題。上面已經討論過了。然后是模型的訓練調參。這也是一個非常漫長痛苦的過程。然后是模型的驗證。周而復始。由于這些問題,AI技術現在做好一個場景,需要花費很大的精力。
期待有一天,AI技術可以做到像使用AWS API這樣簡單。
CSDN:自從生成網絡火爆,圖像風格遷移的APP便層出不窮,但似乎都還僅停留在娛樂層面,沒有向更深更實用的方向發(fā)展,那么小蟻做AI藝術這個應用的初衷是什么,下一步將踩在哪里?
張駿峰:小蟻除了硬件產品,還有很多相配套的移動應用配合硬件產品。其中,小蟻運動相機/小蟻微單App提供了完整的硬件控制,圖像視頻編輯,社區(qū)分享的流程。我們一直在思考如何讓用戶玩得更好。
2015年底我們已經知道風格遷移的論文,并且做了嘗試。那時候我們沒有GPU機器,用cpu來實現處理算法,處理速度非常慢。嘗試過一次后我們就放棄了。
Prisma的火爆,讓我們意識到在風格遷移是可以有很好的移動用戶體驗的。我們開始使用購買GPU機器,用GPU來實現風格遷移算法。幸運的是,那時候已經有好幾篇論文,把風格轉換的速度提高了很多。我們在前人的基礎上,實現了我們自己的風格遷移算法,應用到小蟻的移動應用上。
小蟻AI藝術上線的時候,正好趕上微信小程序即將上線的消息。我們立刻組織人員實現了小蟻AI藝術微信小程序版。由于時間緊迫,我們在后一個星期六才提交審核。幸運的是,我們的小程序一次審核通過,得以在小程序放開的第一天,讓用戶使用。大部分使用過小蟻AI藝術微信小程序的用戶,反饋都是非常正面的。在幾乎沒有推廣的情況下,上線第一天獲得了超過20萬的使用次數。
我們早上線的小程序只能處理圖片。春節(jié)之后,我們更新了一版,新的小蟻AI藝術微信小程序可以處理小視頻。相信用戶用小蟻AI藝術處理過小視頻后,會有更深刻的感受。
現在的小蟻AI藝術,從用戶體驗上看,還有很多局限性。首先,每一種風格,合適于某一類圖片,F在的體驗,用戶必須手動把所有風格都試一遍,才知道哪種風格合適。某一種風格,或者合適于人像,或者合適于風景。對于同時有人有景的圖片,有時候需要做一個抉擇。
我們能提供的風格模板也比較有限,用戶使用過一陣后,新鮮感減少。好的用戶體驗,是讓用戶任意指定一張照片,和一種風格,我們能把這張照片按照用戶指定風格處理。我們現在的技術還無法做到這一點。
CSDN:您覺得圖像風格遷移技術的難點在哪里,如何落地,瓶頸是什么?
張駿峰:首先是網絡設計。各種論文上的方法,需要我們自己實現出來。但是按照論文方法實現出來后,我們發(fā)現效果不是很好,照片處理后有一種很臟的感覺。如何去臟,把照片弄干凈,花了我們很多時間。我們對終的效果還是很滿意的。
然后就是風格的選取。選擇一個對大多數照片都合適的風格,是一件很繁瑣的事情。我們一開始就定了一個方向:中國風。事實證明,傳統(tǒng)中國風,顏色比較簡單,大部分的照片,遷移之后效果不太好。我們從兩個方面解決這個問題。一方面,我們把中國近代的著名畫家都找了一遍,試了無數張,后從中挑了8種風格做為第一次的模板。同時,我們針對這8種風格,每一種風格都做了不同的網絡優(yōu)化。
整個過程中,我們發(fā)現,選擇一種好風格,非常花時間。我們也希望能有一種工具,讓我們很容易判斷這種風格是否好。但目前為止,我們還沒有找到這樣的工具。
CSDN:小蟻AI藝術訓練所用數據來自哪里,采用何種網絡及框架,在具體實施過程中有何技巧?
張駿峰:對我們來說,比較幸運的是,我們已經有一個小蟻社區(qū),用戶在社區(qū)上分享了很多照片。這些照片是我們的測試數據集。風格的選取上,由于我們主打中國風,我們主要的目標在中國近現代著名畫家的作品上。
網絡方面,主要是借鑒了李飛飛的網絡,根據我們自己的風格,做了不同的調整?蚣芪覀冇玫氖荰orch。
我們花了很多時間處理去臟的問題。這個也是一個開發(fā)靈機一動想到的辦法,然后就好了。很神奇。
CSDN:小蟻AI藝術主打“中國風”,請問為何選擇這種風格?
張駿峰:因為我們不想和其他人一樣。很多App選擇了西方風格。我們在中國,就應該選擇中國風。這種選擇讓我們多了很多開發(fā)時間,但我們認為是值得的,也是我們?yōu)橹湴恋摹?/p>
CSDN:在產品的研發(fā)過程中,團隊遇到過哪些問題?是如何解決的?
張駿峰:服務端,小程序初上線的時候,很多人用,給服務器很大壓力。我們使用的是阿里云的服務。在阿里云的HPC和阿里云OSS之間,對于高并發(fā)有一些問題。我們幾次反復,和阿里云支持團隊多次交流,后解決。
小程序方面,很多H5有的功能不能使用,也讓開發(fā)饒了一些彎路。比如,給圖片加水印,就試了好多條路,后是在服務器上實現的。
開發(fā)AI藝術小視頻的時候,也遇到了很多問題。視頻的方向是一個大問題。視頻的處理時間比圖片長很多,這使得我們不得不改架構。
大部分問題都解決了。但是在小程序上如何保存處理后的視頻,我們始終沒有找到一個好方法。現在只能讓用戶在我們提供的H5頁面上處理保存視頻。
CSDN:小蟻的產品及技術如何與競品公司差異化?
張駿峰:聽用戶反饋,抓住每一個細節(jié),緊跟世界前沿,學習先進經驗,不斷進步,努力做到更好。這是我們的原則。
CSDN:在管理方面,您有何獨到的帶隊方式?
張駿峰:給團隊高度,讓團隊用自己的辦法達到期望的高度,然后告訴我他們自己可以達到的高度(必須比我要求的高度更高)。向世界好看齊。