Nicholas Carlini
Nicholas Carlini es un investigador afiliado a Google DeepMind que ha publicado investigaciones en los campos de la seguridad informática y el aprendizaje automático. Es conocido por su trabajo en aprendizaje automático antagónico, particularmente su trabajo en el ataque Carlini & Wagner en 2016. Este ataque fue particularmente útil para derrotar la destilación defensiva, un método utilizado para aumentar la robustez del modelo, y desde entonces ha sido efectivo contra otras defensas contra la entrada adversaria. En 2018, demostró un ataque al modelo DeepSpeech de Mozilla, mostrando que se podían incorporar comandos ocultos en las entradas de voz, que el modelo ejecutaría incluso si fueran inaudibles para los humanos. También dirigió un equipo en UC Berkeley que rompió con éxito siete de las once defensas contra ataques adversarios presentadas en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2018. Además de su trabajo sobre ataques antagónicos, ha realizado contribuciones significativas para comprender los riesgos de privacidad de los modelos de aprendizaje automático. En 2020, reveló que los modelos de lenguaje grandes, como GPT-2, podrían memorizar y generar información de identificación personal. Su investigación demostró que este problema empeoraba con modelos más grandes y luego mostró vulnerabilidades similares en modelos de imágenes generativas, como Stable Diffusion. BiografíaNicholas Carlini obtuvo su Licenciatura en Ciencias de la Computación y Matemáticas de la Universidad de California, Berkeley, en 2013. Posteriormente continuó sus estudios en la misma universidad, donde realizó un doctorado bajo la supervisión de David Wagner, finalizándolo en 2018.[1][2][3] Se hizo conocido por su trabajo en aprendizaje automático antagónico. En 2016, trabajó junto a Wagner para desarrollar el ataque Carlini & Wagner, un método para generar ejemplos antagónicos contra modelos de aprendizaje automático. Se demostró que el ataque es útil contra la destilación defensiva, un mecanismo popular en el que se entrena un modelo de estudiante basándose en las características de un modelo padre para aumentar la solidez y la generalización de los modelos de estudiante. El ataque ganó popularidad cuando se demostró que la metodología también era efectiva contra la mayoría de las otras defensas, volviéndolas ineficaces.[4][5] En 2018, Carlini demostró un ataque contra el modelo DeepSpeech de Mozilla Foundation, donde mostró que al ocultar comandos maliciosos dentro de la entrada de voz normal, el modelo de voz respondería a los comandos ocultos incluso cuando los comandos no fueran discernibles para los humanos.[6][7] Ese mismo año, Carlini y su equipo de la Universidad de California en Berkeley demostraron que, de los 11 artículos que presentaban defensas a ataques adversarios aceptados en la conferencia ICLR de ese año, siete de las defensas podían romperse.[8] Desde 2021, él y su equipo han estado trabajando en un modelo extenso de lenguaje, creando un cuestionario en el que los humanos generalmente obtuvieron un puntaje del 35%, mientras que los modelos de IA obtuvieron un puntaje del 40%, y GPT-3 obtuvo un 38% que podría mejorarse al 40% mediante algunas indicaciones. El modelo con mejor rendimiento en la prueba fue UnifiedQA, un modelo desarrollado por Google específicamente para preguntas de respuesta y conjuntos de respuestas.[9] También ha desarrollado métodos para hacer que grandes modelos de lenguaje como ChatGPT respondan preguntas dañinas como cómo construir bombas.[10][11] También es conocido por su trabajo estudiando la privacidad de los modelos de aprendizaje automático. En 2020, demostró por primera vez que los modelos extensos de lenguaje memorizarían algunos datos de texto con los que fueron entrenados. Por ejemplo, descubrió que GPT-2 podía generar información de identificación personal.[12] Luego dirigió un análisis de modelos más grandes y estudió cómo la memorización aumentaba con el tamaño del modelo. Luego, en 2022, mostró la misma vulnerabilidad en los modelos de imágenes generativas, y específicamente en los modelos de difusión, al demostrar que Stable Diffusion podía generar imágenes de los rostros de las personas en las que fue entrenado.[13] Luego de esto, Carlini demostró que ChatGPT a veces también generaba copias exactas de las páginas web en las que fue entrenado, incluida información de identificación personal.[14] Algunos de estos estudios han sido citados desde entonces por los tribunales al debatir el estatus de los derechos de autor de los modelos de IA.[15] Otros trabajosRecibió el premio Best of Show en el IOCCC 2020 por implementar un juego de tres en línea completamente con llamadas a printf, ampliando el trabajo de un artículo de investigación suyo de 2015. Los jueces comentaron sobre su presentación: «El Best of Show de este año (carlini) es una forma tan novedosa de ofuscación que merecería una mención especial en la (futura) lista Best of IOCCC». [sic][16] Premios
Referencias
Data es/Nicholas Carlini Tidak ditemukan |