Μετάβαση στο περιεχόμενο

Αντιπαραθετική μηχανική μάθηση

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Η αντιπαραθετική μηχανική μάθηση, γνωστή και ως αντιπαλική μηχανική μάθηση, είναι μια τεχνική στον τομέα της μηχανικής μάθησης κατά την οποία ανιχνεύονται δεδομένα εισαγωγής που μπορούν να ξεγελάσουν ένα μοντέλο. [1] Η τεχνική αυτή μπορεί να εφαρμοστεί για διάφορους λόγους, συμπεριλαμβανομένων την κακόβουλη επίθεση του εξαπατώμενου μοντέλου, την εξέταση της ευρωστείας του εξαπατώμενου μοντέλου σε επιθέσεις και την εξασφάλιση της ανεξαρτησίας του αποτελέσματος του εξαπατώντος μοντέλου από την τιμή που αξιολογεί το εξαπατώμενο.

Αντιπαραθετικές επιθέσεις

[Επεξεργασία | επεξεργασία κώδικα]

Οι τεχνικές μηχανικής μάθησης σχεδιάστηκαν αρχικά για σταθερά περιβάλλοντα όπου τα δεδομένα εκπαίδευσης και δοκιμής προέρχονται από την ίδια στατιστική κατανομή. Όταν όμως τα μοντέλα αυτά εφαρμόζονται στον πραγματικό κόσμο, η παρουσία ευφυών και προσαρμοστικών αντιπάλων ενδέχεται ανάλογα με τον αντίπαλο να παραβιάσει σε κάποιο βαθμό αυτή τη στατιστική υπόθεση. Η αντιπαραθετική μάθηση δείχνει πως ένας κακόβουλος αντίπαλος μπορεί να παραποιήσει κρυφά τα δεδομένα εισόδου έτσι ώστε να εκμεταλλευτεί συγκεκριμένες ευπάθειες των αλγορίθμων μάθησης και να θέσει σε κίνδυνο την ασφάλεια του συστήματος. [2]

Οι αντιπαραθετικές επιθέσεις μπορούν να ταξινομηθούν σε επιθέσεις διαφυγής, όπου δημιουργούνται παραγείγματα που, βάσει μικρών τροποποιήσεων, διαφεύγουν την ανίχνευση ενός εκπαιδευμένου μοντέλου, και επιθέσεις δηλητηρίασης, όπου προστίθεται μικρός αριθμός αντιπαραθετικών παραδειγμάτων στα δεδομένα εκπαίδευσης με αποτέλεσμα την δυσλειτουργία του εκπαιδευμένου συστήματος.

Επιθέσεις διαφυγής

[Επεξεργασία | επεξεργασία κώδικα]

Παραδείγματα περιλαμβάνουν επιθέσεις κατά συστημάτων φιλτραρίσματος ανεπιθύμητων μηνυμάτων (spam), όπου τα ανεπιθύματα μηνύματα διαφεύγουν την ανίχνευση μέσω της τροποποίησης της ορθογραφίας "κακών" λέξεων ή της προσθήκης "καλών" λέξεων, μηνύματα περιλαμβανόμενων των οποίων το σύστημα έχει μάθει να θεωρέι πάντα επιθυμητά, [3] [4] και επιθέσεις κατά της βιομετρικής αναγνώρισης, όπου παράγονται ψευδή βιομετρικά χαρακτηριστικά για να μιμηθούν έναν νόμιμο χρήστη. [5]

Το 2017, οι ερευνητές του Ινστιτούτου Τεχνολογίας της Μασαχουσέτης εκτύπωσαν τρισδιάστατα μια πλαστική χελώνα με υφή σχεδιασμένη για να κάνει την τεχνιτή νοημοσύνη ανίχνευσης αντικειμένων της Google να το ταξινομήσει ως όπλο ανεξάρτητα από τη γωνία από την οποία φωτογραφίζεται. [6] Η δημιουργία της χελώνας απαιτούσε μόνο χαμηλού κόστους εμπορικά διαθέσιμη τεχνολογία εκτύπωσης 3-D. [7] Το 2018, το Google Brain δημοσίευσε μια τροποποιημένη εικόνα ενός σκύλου που έμοιαζε με γάτα τόσο στους υπολογιστές όσο και στους ανθρώπους. [8] Μια μελέτη του 2019 από το Πανεπιστήμιο Johns Hopkins έδειξε ότι οι άνθρωποι μπορούν να μαντέψουν πώς τα μηχανήματα θα ταξινομήσουν λανθασμένα τις αντιπαραθετικές εικόνες. [9] Οι ερευνητές ανακάλυψαν επίσης ελαφριές αλλά ακριβείς μεθόδους ελαφρώς να διαταράξουν την εμφάνιση ενός σήματος στοπ έτσι ώστε ένα αυτόνομο όχημα να το ταξινομήσει ως σήμα συγχώνευσης ή ορίου ταχύτητας. [10] [11]

Επιθέσεις δηλητηρίασης

[Επεξεργασία | επεξεργασία κώδικα]

Οι αλγόριθμοι μηχανικής μάθησης συχνά επανεκπαιδεύονται σε δεδομένα που συλλέχθηκαν κατά τη διάρκεια της λειτουργίας τους για να προσαρμοστούν στις αλλαγές της υποκείμενης κατανομής δεδομένων. Για παράδειγμα, τα συστήματα ανίχνευσης εισβολών συχνά επανεκπαιδεύονται σε δείγματα που συλλέγονται κατά τη λειτουργία του δικτύου. Σε αυτό το σενάριο, ένας εισβολέας μπορεί να δηλητηριάσει τα δεδομένα εκπαίδευσης με την έγχυση προσεκτικά σχεδιασμένων δειγμάτων για να υπονομεύσει τελικά ολόκληρη τη διαδικασία εκμάθησης. Ως εκ τούτου, η δηλητηρίαση μπορεί να θεωρηθεί ως αντιπαραθετική μόλυνση των δεδομένων εκπαίδευσης. Παραδείγματα επιθέσεων δηλητηρίασης εναντίον αλγορίθμων μηχανικής μάθησης, συμπεριλαμβανομένης της μάθησης με την παρουσία χειρότερων περιπτώσεων αντιπαραθετικών αλλαγών σήμανσης στα δεδομένα εκπαίδευσης, παραθέτονται στους ακόλουθους συνδέσμους. [12] [13] [14] [15] [16] Τα αντιπαραθετικά σημάδια στάσης (σημάδια στάσης που φαίνονται φυσιολογικά στο ανθρώπινο μάτι αλλά ταξινομούνται ως σημάδια μη σταματήματος από νευρικά δίκτυα) αποτελούν πρωταρχικά παραδείγματα επιθέσεων δηλητηρίασης. [17]

Αντιπαραθετική εκπαίδευση

[Επεξεργασία | επεξεργασία κώδικα]

Η αντιπαραθετική μάθηση μπορεί να χρησιμοποιηθεί επίσης κατά την εκπαίδευση του εξαπατώντος μοντέλου, για να εξασφαλιστεί η ανεξαρτησία των δεδομένων εξόδου του από την τιμή που ταξινομεί το εξαπατώμενο μοντέλο.

Για παράδειγμα, στην εκπάιδευση αυτόματου συστήματος μετάφρασης μεταξύ δύο γλωσσών για τις οποίες δεν υπάρχει ικανό σύνολο παράλληλων κειμένων, εκπαιδεύονται δύο διαφορετικοί αυτοκωδικοποιητές, μία για κάθε γλώσσα, που μετατρέπουν το κείμενο στη γλώσσα αυτή σε μία ενδιάμεση εκπροσώπηση. Παράλληλα, εκπαιδεύεται ένας ταξινομητής που μαθαίνει να διακρίνει την γλώσσα του κειμένου βάσει της ενδιάμεσης αυτής εκπροσώπησής της. Οι δύο αυτοκωδικοποιητές εκπαιδεύονται αντιπαραθετικά με τον ταξινομητή, δηλαδή προσπαθούν να παράγουν εκπροσωπήσεις τις οποίες ο ταξινομητής δεν μπορεί να διαχωρήσει, την ίδια στιγμή που ο ταξινομητής προπαθεί να μάθει να τις διαχωρήζει. Με αυτόν τον τρόπο, οι αυτοκωδικοποιητές μαθαίνουν να παράγουν μια ενδιάμεση εκπροσώπηση που είναι ανεξάρτητη της γλώσσας και άρα κοινή μεταξύ τους. Με την ολοκλήρωση της εκπαίδευσης, η ακρίβεια του ταξινομητή φτάνει το μηδέν και η ενδιάμση εκπροσώπηση είναι εντελώς ανεξάρτητη γλώσσας και άρα τα μοντέλα μετατροπής της κάθε γλώσσας σε αυτήν και τανάπαλιν μπορούν να χρησιμοποιηθούν για μετάφραση μεταξύ των δύο γλωσσών.

Παραγωγικά αντιπαραθετικά δίκτυα

[Επεξεργασία | επεξεργασία κώδικα]
Περαιτέρω πληροφορίες: Παραγωγικό αντιπαραθετικό δίκτυο

Η πλέον διαδεδομένη εφαρμογή της αντιπαλικής εκπαίδευσης είναι τα Παραγωγικά Αντιπαραθετικά Δίκτυα, γνωστά επίσης ως Αντιπαλικά Δίκτυα, Παραγωγικά Ανταγωνιστικά Δίκτυα και Aναγεννητικά Aνταγωνιστικά Δίκτυα (στα αγγλικά Generative Adversarial Networks - GAN).

Πρόκειται για μια μέθοδο μη-επιτηρούμενης μάθησης, κατά την οποία ένα παραγωγικό μοντέλο εκπαιδεύεται να παράγει παραδείγματα που εξαπατούν έναν ταξινομητή, ο οποίος εκπαιδεύεται συγχρόνως να διαχωρίζει μεταξύ τα παραδείγματα που παράγει το παραγωγικό μοντέλο και τα πραγματικά παραδείγματα μιας κατανομής. Έτσι, το παραγωγικό μοντέλο μαθαίνει να παράγει ρεαλιστικά παραδείγματα που δεν μπορούν να διαχωριστούν από πραγματικά δεδομένα.

Λογισμικό αντιπαραθετικών επιθέσεων

[Επεξεργασία | επεξεργασία κώδικα]

Ορισμένες βιβλιοθήκες λογισμικού είναι διαθέσιμες, κυρίως για σκοπούς δοκιμών και έρευνας.

  1. Bengio, Samy· Goodfellow, Ian J.· Kurakin, Alexey (2017). «Adversarial Machine Learning at Scale». Google AI (στα Αγγλικά). Ανακτήθηκε στις 13 Δεκεμβρίου 2018. 
  2. Papernot, Ian Goodfellow, Patrick McDaniel, Nicolas. «Making Machine Learning Robust Against Adversarial Inputs». cacm.acm.org (στα Αγγλικά). Αρχειοθετήθηκε από το πρωτότυπο στις 23 Ιουλίου 2018. Ανακτήθηκε στις 13 Δεκεμβρίου 2018. 
  3. B. Biggio, G. Fumera, and F. Roli. "Multiple classifier systems for robust classifier design in adversarial environments Αρχειοθετήθηκε 2023-01-19 στο Wayback Machine.". International Journal of Machine Learning and Cybernetics, 1(1):27–41, 2010.
  4. M. Bruckner, C. Kanzow, and T. Scheffer. "Static prediction games for adversarial learning problems". J. Mach. Learn. Res., 13:2617–2654, 2012.
  5. R. N. Rodrigues, L. L. Ling, and V. Govindaraju. "Robustness of multimodal biometric fusion methods against spoof attacks". J. Vis. Lang. Comput., 20(3):169–179, 2009.
  6. «Single pixel change fools AI programs». BBC News. 3 November 2017. https://www.bbc.com/news/technology-41845878. Ανακτήθηκε στις 12 February 2018. 
  7. Athalye, A., & Sutskever, I. (2017). Synthesizing robust adversarial examples. arXiv preprint arXiv:1707.07397.
  8. «AI Has a Hallucination Problem That's Proving Tough to Fix». WIRED. 2018. https://www.wired.com/story/ai-has-a-hallucination-problem-thats-proving-tough-to-fix/. Ανακτήθηκε στις 10 March 2018. 
  9. Zhou, Z., & Firestone, C. (2019). Humans can decipher adversarial images Αρχειοθετήθηκε 2019-03-31 στο Wayback Machine.. Nature Communications, 10, 1334.
  10. Jain, Anant (9 Φεβρουαρίου 2019). «Breaking neural networks with adversarial attacks - Towards Data Science». Medium (στα Αγγλικά). Ανακτήθηκε στις 15 Ιουλίου 2019. 
  11. Ackerman, Evan (4 Αυγούστου 2017). «Slight Street Sign Modifications Can Completely Fool Machine Learning Algorithms». IEEE Spectrum: Technology, Engineering, and Science News (στα Αγγλικά). Ανακτήθηκε στις 15 Ιουλίου 2019. 
  12. B. Biggio, G. Fumera, and F. Roli. "Security evaluation of pattern classifiers under attack Αρχειοθετήθηκε 2018-05-18 στο Wayback Machine.". IEEE Transactions on Knowledge and Data Engineering, 26(4):984–996, 2014.
  13. B. Biggio, I. Corona, B. Nelson, B. Rubinstein, D. Maiorca, G. Fumera, G. Giacinto, and F. Roli. "Security evaluation of support vector machines in adversarial environments Αρχειοθετήθηκε 2020-08-03 στο Wayback Machine.". In Y. Ma and G. Guo, editors, Support Vector Machines Applications, pp. 105–153. Springer, 2014.
  14. M. Barreno, B. Nelson, A. Joseph, and J. Tygar. "The security of machine learning". Machine Learning, 81:121–148, 2010
  15. B. Biggio, B. Nelson, and P. Laskov. "Support vector machines under adversarial label noise Αρχειοθετήθηκε 2020-08-03 στο Wayback Machine.". In Journal of Machine Learning Research - Proc. 3rd Asian Conf. Machine Learning, volume 20, pp. 97–112, 2011.
  16. M. Kloft and P. Laskov. "Security analysis of online centroid anomaly detection". Journal of Machine Learning Research, 13:3647–3690, 2012.
  17. Moisejevs, Ilja (15 Ιουλίου 2019). «Poisoning attacks on Machine Learning - Towards Data Science». Medium (στα Αγγλικά). Ανακτήθηκε στις 15 Ιουλίου 2019. 
  18. H. Xiao, B. Biggio, B. Nelson, H. Xiao, C. Eckert, and F. Roli. "Support vector machines under adversarial label contamination Αρχειοθετήθηκε 2018-11-17 στο Wayback Machine.". Neurocomputing, Special Issue on Advances in Learning with Label Noise, In Press.
  19. «cchio/deep-pwning». GitHub. Ανακτήθηκε στις 8 Αυγούστου 2016.