Nicholas Carlini

Nicholas Carlini
Información personal
Nacimiento c. 1990 Ver y modificar los datos en Wikidata
Educación
Educado en Universidad de California en Berkeley Ver y modificar los datos en Wikidata
Información profesional
Ocupación Investigador Ver y modificar los datos en Wikidata
Área Aprendizaje automático Ver y modificar los datos en Wikidata
Empleador Google DeepMind Ver y modificar los datos en Wikidata
Sitio web nicholas.carlini.com Ver y modificar los datos en Wikidata

Nicholas Carlini es un investigador afiliado a Google DeepMind que ha publicado investigaciones en los campos de la seguridad informática y el aprendizaje automático. Es conocido por su trabajo en aprendizaje automático antagónico, particularmente su trabajo en el ataque Carlini & Wagner en 2016. Este ataque fue particularmente útil para derrotar la destilación defensiva, un método utilizado para aumentar la robustez del modelo, y desde entonces ha sido efectivo contra otras defensas contra la entrada adversaria. En 2018, demostró un ataque al modelo DeepSpeech de Mozilla, mostrando que se podían incorporar comandos ocultos en las entradas de voz, que el modelo ejecutaría incluso si fueran inaudibles para los humanos. También dirigió un equipo en UC Berkeley que rompió con éxito siete de las once defensas contra ataques adversarios presentadas en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2018.

Además de su trabajo sobre ataques antagónicos, ha realizado contribuciones significativas para comprender los riesgos de privacidad de los modelos de aprendizaje automático. En 2020, reveló que los modelos de lenguaje grandes, como GPT-2, podrían memorizar y generar información de identificación personal. Su investigación demostró que este problema empeoraba con modelos más grandes y luego mostró vulnerabilidades similares en modelos de imágenes generativas, como Stable Diffusion.

Biografía

Nicholas Carlini obtuvo su Licenciatura en Ciencias de la Computación y Matemáticas de la Universidad de California, Berkeley, en 2013. Posteriormente continuó sus estudios en la misma universidad, donde realizó un doctorado bajo la supervisión de David Wagner, finalizándolo en 2018.[1][2][3]​ Se hizo conocido por su trabajo en aprendizaje automático antagónico. En 2016, trabajó junto a Wagner para desarrollar el ataque Carlini & Wagner, un método para generar ejemplos antagónicos contra modelos de aprendizaje automático. Se demostró que el ataque es útil contra la destilación defensiva, un mecanismo popular en el que se entrena un modelo de estudiante basándose en las características de un modelo padre para aumentar la solidez y la generalización de los modelos de estudiante. El ataque ganó popularidad cuando se demostró que la metodología también era efectiva contra la mayoría de las otras defensas, volviéndolas ineficaces.[4][5]​ En 2018, Carlini demostró un ataque contra el modelo DeepSpeech de Mozilla Foundation, donde mostró que al ocultar comandos maliciosos dentro de la entrada de voz normal, el modelo de voz respondería a los comandos ocultos incluso cuando los comandos no fueran discernibles para los humanos.[6][7]​ Ese mismo año, Carlini y su equipo de la Universidad de California en Berkeley demostraron que, de los 11 artículos que presentaban defensas a ataques adversarios aceptados en la conferencia ICLR de ese año, siete de las defensas podían romperse.[8]

Desde 2021, él y su equipo han estado trabajando en un modelo extenso de lenguaje, creando un cuestionario en el que los humanos generalmente obtuvieron un puntaje del 35%, mientras que los modelos de IA obtuvieron un puntaje del 40%, y GPT-3 obtuvo un 38% que podría mejorarse al 40% mediante algunas indicaciones. El modelo con mejor rendimiento en la prueba fue UnifiedQA, un modelo desarrollado por Google específicamente para preguntas de respuesta y conjuntos de respuestas.[9]​ También ha desarrollado métodos para hacer que grandes modelos de lenguaje como ChatGPT respondan preguntas dañinas como cómo construir bombas.[10][11]

También es conocido por su trabajo estudiando la privacidad de los modelos de aprendizaje automático. En 2020, demostró por primera vez que los modelos extensos de lenguaje memorizarían algunos datos de texto con los que fueron entrenados. Por ejemplo, descubrió que GPT-2 podía generar información de identificación personal.[12]​ Luego dirigió un análisis de modelos más grandes y estudió cómo la memorización aumentaba con el tamaño del modelo. Luego, en 2022, mostró la misma vulnerabilidad en los modelos de imágenes generativas, y específicamente en los modelos de difusión, al demostrar que Stable Diffusion podía generar imágenes de los rostros de las personas en las que fue entrenado.[13]​ Luego de esto, Carlini demostró que ChatGPT a veces también generaba copias exactas de las páginas web en las que fue entrenado, incluida información de identificación personal.[14]​ Algunos de estos estudios han sido citados desde entonces por los tribunales al debatir el estatus de los derechos de autor de los modelos de IA.[15]

Otros trabajos

Recibió el premio Best of Show en el IOCCC 2020 por implementar un juego de tres en línea completamente con llamadas a printf, ampliando el trabajo de un artículo de investigación suyo de 2015. Los jueces comentaron sobre su presentación: «El Best of Show de este año (carlini) es una forma tan novedosa de ofuscación que merecería una mención especial en la (futura) lista Best of IOCCC». [sic][16]

Premios

  • Premio al mejor artículo de estudiantes, IEEE S&P 2017 («Hacia la evaluación de la robustez de las redes neuronales«) [17]
  • Premio al mejor artículo, ICML 2018 («Los gradientes ofuscados dan una falsa sensación de seguridad: cómo eludir las defensas ante ejemplos adversarios») [18]
  • Premio al mejor artículo, USENIX 2021 («Envenenamiento del conjunto de datos no etiquetados del aprendizaje semisupervisado») [19]
  • Premio al mejor artículo, USENIX 2023 («Auditoría estricta del aprendizaje automático diferencialmente privado») [20]
  • Premio al mejor artículo, ICML 2024 («Robo de parte de un modelo de lenguaje de producción») [21]
  • Premio al mejor artículo, ICML 2024 («Consideraciones para el aprendizaje privado diferencial con preentrenamiento público a gran escala») [21]

Referencias

  1. «Nicholas Carlini». nicholas.carlini.com. Archivado desde el original el 3 de junio de 2024. Consultado el 4 de junio de 2024. 
  2. «Nicholas Carlini». AI for Good (en inglés estadounidense). Archivado desde el original el 4 de junio de 2024. Consultado el 4 de junio de 2024. 
  3. «Graduates». people.eecs.berkeley.edu. Consultado el 4 de junio de 2024. 
  4. Pujari, Medha; Cherukuri, Bhanu Prakash; Javaid, Ahmad Y; Sun, Weiqing (27 de julio de 2022). «An Approach to Improve the Robustness of Machine Learning based Intrusion Detection System Models Against the Carlini-Wagner Attack». 2022 IEEE International Conference on Cyber Security and Resilience (CSR). IEEE. pp. 62-67. ISBN 978-1-6654-9952-1. doi:10.1109/CSR54599.2022.9850306. Consultado el 4 de junio de 2024. 
  5. Schwab, Katharine (12 de diciembre de 2017). «How To Fool A Neural Network». Fast Company. Archivado desde el original el 30 de junio de 2023. Consultado el 4 de junio de 2023. 
  6. Smith, Craig S. (10 de mayo de 2018). «Alexa and Siri Can Hear This Hidden Command. You Can't.». The New York Times (en inglés estadounidense). ISSN 0362-4331. Archivado desde el original el 25 de enero de 2021. Consultado el 4 de junio de 2024. 
  7. «As voice assistants go mainstream, researchers warn of vulnerabilities». CNET (en inglés). Consultado el 4 de junio de 2024. 
  8. Simonite, Tom. «AI Has a Hallucination Problem That's Proving Tough to Fix». Wired (en inglés estadounidense). ISSN 1059-1028. Archivado desde el original el 11 de junio de 2023. Consultado el 4 de junio de 2024. 
  9. Hutson, Matthew (3 de marzo de 2021). «Robo-writers: the rise and risks of language-generating AI». Nature (en inglés) 591 (7848): 22-25. Bibcode:2021Natur.591...22H. PMID 33658699. doi:10.1038/d41586-021-00530-0. 
  10. Conover, Emily (1 de febrero de 2024). «AI chatbots can be tricked into misbehaving. Can scientists stop it?». Science News (en inglés estadounidense). Consultado el 26 de julio de 2024. 
  11. Metz, Cade (27 de julio de 2023). «Researchers Poke Holes in Safety Controls of ChatGPT and Other Chatbots». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 26 de julio de 2024. 
  12. «What does GPT-3 "know" about me?». MIT Technology Review (en inglés). Consultado el 26 de julio de 2024. 
  13. Edwards, Benj (1 de febrero de 2023). «Paper: Stable Diffusion "memorizes" some images, sparking privacy concerns». Ars Technica (en inglés estadounidense). Consultado el 26 de julio de 2024. 
  14. Newman, Lily Hay. «ChatGPT Spit Out Sensitive Data When Told to Repeat 'Poem' Forever». Wired (en inglés estadounidense). ISSN 1059-1028. Archivado desde el original el 26 de julio de 2024. Consultado el 26 de julio de 2024. 
  15. J. DOE 1, .
  16. «The 27th IOCCC». IOCCC. Archivado desde el original el 8 de septiembre de 2024. Consultado el 26 de julio de 2024. 
  17. «IEEE Symposium on Security and Privacy 2017». www.ieee-security.org. Archivado desde el original el 2 de septiembre de 2024. Consultado el 2 de septiembre de 2024. 
  18. «ICML 2018 Awards». icml.cc. Archivado desde el original el 2 de septiembre de 2024. Consultado el 2 de septiembre de 2024. 
  19. Carlini, Nicholas (2021). «Poisoning the Unlabeled Dataset of {Semi-Supervised} Learning». USENIX Security 2021 (en inglés): 1577-1592. ISBN 978-1-939133-24-3. 
  20. Nasr, Milad; Hayes, Jamie; Steinke, Thomas; Balle, Borja; Tramèr, Florian; Jagielski, Matthew; Carlini, Nicholas; Terzis, Andreas (2023). «Tight Auditing of Differentially Private Machine Learning». USENIX Security 2023 (en inglés): 1631-1648. ISBN 978-1-939133-37-3. Archivado desde el original el 8 de septiembre de 2024. Consultado el 2 de septiembre de 2024. 
  21. a b «ICML 2024 Awards». ICML. Archivado desde el original el 8 de septiembre de 2024. Consultado el 2 de septiembre de 2024. 
Data es/Nicholas Carlini Tidak ditemukan