Itthon Hang Hogyan segíti a max pooling az alexnet nagyszerű képfeldolgozási technológiát?

Hogyan segíti a max pooling az alexnet nagyszerű képfeldolgozási technológiát?

Anonim

K:

Hogyan segíti a max pooling a AlexNet nagyszerű képfeldolgozási technológiát?

A:

Az AlexNet-ben, egy innovatív konvolúciós neurális hálózatban a max pooling fogalmát beillesztik egy komplex modellbe, amely több konvolúciós réteget tartalmaz, részben az illesztés elősegítése és az neurális hálózat munkájának korszerűsítése érdekében, amikor képeket dolgoznak a szakértők szerint egy „nemlineáris lefelé irányuló mintavételi stratégia”.

Az AlexNet széles körű CNN-nek tekinthető, mivel megnyerte a 2012-es ILSVRC-t (ImageNet nagy méretű vizuális felismerési kihívás), amelyet a gépi tanulás és az ideghálózat fejlődésének csúcspontjának tekintik (egyesek a számítógépes látás „olimpiájának” hívják). ).

A hálózat keretein belül, ahol a képzés két GPU-ra van felosztva, öt konvolúciós réteg van, három teljesen összekapcsolt réteg és néhány max pooling megvalósítás.

Alapvetően a max pooling a neurongyűjteményből származó kimenetek „poolját” veszi fel, és alkalmazza azokat a következő réteg értékeire. Ennek megértésének másik módja az, hogy a max pooling megközelítés konszolidálhatja és egyszerűsítheti az értékeket a modell megfelelőbb felszerelése érdekében.

A maximális összevonás segíthet kiszámítani a színátmeneteket. Azt lehet mondani, hogy "csökkenti a számítási terhet" vagy "zsugorodik a túlteljesítés" - lefelé vett mintavétellel a maximális összevonás bekapcsolja az úgynevezett "dimenzió csökkentését".

A dimenzió csökkentése azzal a kérdéssel foglalkozik, hogy egy túl bonyolult modell van, amelyet nehéz futtatni egy neurális hálózaton keresztül. Képzeljünk el egy összetett formát, sok apró, egyenetlen kontúrral, és ennek a vonalnak minden apró részét egy adatpont képviseli. A dimenzió csökkentésével a mérnökök elősegítik a gépi tanulási programot, hogy „kicsinyítsen” vagy kevesebb adatpontot gyűjtsön, hogy a modell egészét egyszerűbbé tegye. Ezért, ha egy maximális összevonási réteget és annak kimenetét nézi, néha láthat egy egyszerűbb pixelációt, amely megfelel a dimenzió csökkentésének stratégiájának.

Az AlexNet az egyenirányított lineáris egységeknek (ReLU) nevezett funkciót is használja, és a max pooling kiegészítheti ezt a technikát a képek CNN-n keresztüli feldolgozásakor.

A szakértők és a projektben részt vevők bőséges vizuális modelleket, egyenleteket és egyéb részleteket mutattak be az AlexNet sajátos felépítésének bemutatására, de általános értelemben a max pooling-ra gondolhat, mint a több mesterséges idegsejt kimenetének összevonására vagy konszolidálására. Ez a stratégia a CNN átfogó felépítésének része, amely szinonimává vált a csúcstechnikai látásmód és a kép osztályozás szempontjából.

Hogyan segíti a max pooling az alexnet nagyszerű képfeldolgozási technológiát?