Existuje rozdíl mezi šarží a mini šarží v hlubokém učení?


Odpověď 1:

Dávkové zpracování se používá v algoritmu Gradient Descent.

Tři hlavní příchuti gradientu sestupu jsou šarže, stochastické a mini šarže.

Sestup dávkového přechodu vypočítává chybu pro každý příklad v datovém souboru tréninku, ale model aktualizuje až po vyhodnocení všech příkladů tréninku. Výsledkem je nejmenší chyba, ale je výpočetně velmi nákladná.

Stochastické klesání vypočítá chybu a aktualizuje model pro každý příklad v datovém souboru školení. To dává větší chybu, ale je výpočetní velmi snadné. SGD je někdy používán v systémech, které musí být aktualizovány v reálném čase.

Kompromis mezi těmito dvěma algoritmy je Mini-Batch, kde používáte malou část dat jako šarži, typicky výkon dvou vzorků, např. 256, 512. Mini-šaržový gradient je doporučován pro většinu aplikací, zejména v hlubokém učení.

Na internetu je pěkný článek, který tyto metody podrobně popisuje: Jemný úvod do mini-dávkového přechodu a jak nakonfigurovat velikost dávky - zvládnutí strojového učení