Nepřátelské strojové učení, anglicky Adversarial machine learning, je označuje jak útoky na algoritmy strojového učení, tak též, jak se proti takovým útokům bránit.[1] Jedná se o metodu strojového učení, jejímž cílem je oklamat modely strojového učení zadáním klamných vstupních údajů nebo vložení algoritmů do dané sítě.[2] Zahrnuje jak generování, tak detekci adverzních příkladů, což jsou vstupy speciálně vytvořené k oklamání klasifikátorů.[3] Takové útoky jsou prozkoumané například je klasifikace obrázků a detekce spamu či v ovládání hlasových asistentů.[4]
Většina technik strojového učení je obvykle navržena tak, aby fungovala na konkrétních sadách problémů, přičemž se předpokládá, že trénovací a testovací data jsou generována ze stejného statistického rozdělení (IID). Tento předpoklad je však často nebezpečně porušován v praktických aplikacích s vysokým rizikem, kde uživatelé mohou záměrně poskytovat vymyšlené údaje, které porušují statistický předpoklad.
Některé z nejběžnějších útoků v nepřátelském strojovém učení zahrnují únikové útoky,[5] útoky na otravu dat,[6] byzantské útoky[7] a extrakci modelu.[8]
Základní útok v prostředí neuronových sítí je metoda rychlého gradientního označení (FGSM).[9] Průzkum z května 2020 odhaluje skutečnost, že odborníci z praxe hlásí naléhavou potřebu lepší ochrany systémů strojového učení v průmyslových aplikacích.[10] Existují i další typy útoků, které lze volně popsat čtyřmi kategoriemi:[11]
- Útoky typu bílá skříňka (white box) jsou nejsnáze proveditelné, protože mají plnou znalost parametrů modelu. To znamená, že útočník má plnou znalost θ a může využít informace o gradientu k vytvoření nepřátelských příkladů. Jak jste již možná uhodli, takovou metodou je FGSM.
- Útoky typu černá skříňka (black box) jsou na druhou stranu podstatně obtížnější. V tomto případě útočník nemá informace o parametrech modelu, ani k nim nemá přístup ve fázi trénování. To znamená, že při určování škodlivých příkladů nelze použít žádné informace o gradientu. Model však buď vypisuje skóre důvěryhodnosti pro každou třídu, nebo ještě hůře, pouze předpovězené štítky.[12]
- Necílený útok mění intenzitu pixelu tak, aby se snížila důvěryhodnost původní třídy, dokud už nebude v predikčním vektoru největší. Nezajímá je, která třída by měla být predikována místo ní, ale jednoduše se snaží model oklamat.
- Cílené útoky jsou pokročilejší a snaží se narušit vstup směrem k definované cílové třídě y'. Jinými slovy, způsobí, že model chybně interpretuje vstup jako útočníkem požadovanou třídu.
V tomto článku byl použit překlad textu z článku Adversarial machine learning na anglické Wikipedii.
- ↑ [s.l.]: [s.n.] ISBN 978-3-030-29515-8. DOI 10.1007/978-3-030-29516-5_10. (anglicky)
- ↑ Chybí název periodika! PMID 31597977.Chybí povinný parametr: V šabloně
{{Citace periodika}}
je nutno určit zdrojové "periodikum
" odkazu! Je zde použita šablona {{Cite journal}}
označená jako k „pouze dočasnému použití“.
- ↑ BOESCH, Gaudenz. What Is Adversarial Machine Learning? Attack Methods in 2023. viso.ai [online]. 2023-01-01 [cit. 2023-08-23]. Dostupné online. (anglicky)
- ↑ HUTSON, Matthew. AI can now defend itself against malicious messages hidden in speech. Nature. 2019-05-10. PMID: 32385365. Dostupné online [cit. 2023-08-23]. ISSN 1476-4687. DOI 10.1038/d41586-019-01510-1. PMID 32385365.
- ↑ GOODFELLOW, Ian; MCDANIEL, Patrick; PAPERNOT, Nicolas. Making machine learning robust against adversarial inputs. Communications of the ACM. 25 June 2018, s. 56–66. ISSN 0001-0782. DOI 10.1145/3134599. (anglicky) Je zde použita šablona
{{Cite journal}}
označená jako k „pouze dočasnému použití“.
- ↑ In: [s.l.]: [s.n.] Dostupné online. (anglicky)
- ↑ proceedings.neurips.cc. Dostupné online. arXiv 2008.00742. Je zde použita šablona
{{Cite journal}}
označená jako k „pouze dočasnému použití“.
- ↑ In: [s.l.]: [s.n.] Dostupné online. ISBN 978-1-931971-32-4. (anglicky)
- ↑ Adversarial example using FGSM | TensorFlow Core. TensorFlow [online]. [cit. 2023-08-23]. Dostupné online. (anglicky)
- ↑ [s.l.]: [s.n.] ISBN 978-1-7281-9346-5. DOI 10.1109/SPW50608.2020.00028.
- ↑ HUBER, Lukas. Fooling Neural Networks with Adversarial Examples. Medium [online]. 2022-03-30 [cit. 2023-08-23]. Dostupné online. (anglicky)
- ↑ Bhambri, Siddhant; Muku, Sumanyu; Tulasi, Avinash; Buduru, Arun Balaji (2019): A Survey of Black-Box Adversarial Attacks on Computer Vision Models