OpenAI CodexOpenAI Codex es un modelo de inteligencia artificial desarrollado por OpenAI. Analiza el lenguaje natural y genera código como respuesta. Impulsa GitHub Copilot, una herramienta de autocompletado de programación para IDE (entorno de desarrollo integrado) seleccionados, como Visual Studio Code y Neovim.[1] Codex es un descendiente del modelo GPT-3 de OpenAI, perfeccionado para su uso en aplicaciones de programación. OpenAI lanzó una API para Codex en beta cerrada.[1] En marzo de 2023, OpenAI cerró el acceso a Codex.[2] Debido a los llamamientos públicos de los investigadores, OpenAI dio marcha atrás.[3] El modelo Codex todavía puede ser utilizado por los investigadores del Programa de Acceso a la Investigación de OpenAI.[4] CapacidadesBasado en GPT-3, una red neuronal entrenada en texto, Codex fue entrenado adicionalmente en 159 gigabytes de código Python de 54 millones de repositorios de GitHub.[5][6] Un caso de uso típico de Codex es que un usuario escriba un comentario, como " OpenAI afirma que Codex puede crear código en más de una docena de lenguajes de programación, incluidos Go, JavaScript, Perl, PHP, Ruby, Shell, Swift y TypeScript, aunque es más eficaz en Python.[1] Según VentureBeat, las demostraciones subidas por OpenAI mostraron impresionantes capacidades de resolución de coreferencias. Los demostradores fueron capaces de crear un juego de navegador en JavaScript y generar gráficos de ciencia de datos utilizando matplotlib.[9] OpenAI demostró que Codex puede interactuar con servicios y aplicaciones como Mailchimp, Microsoft Word, Spotify y Google Calendar.[9][12] Al parecer, Microsoft Cuestiones relacionadasLas demostraciones de OpenAI mostraron fallos como código ineficiente y peculiaridades puntuales en muestras de código. En una entrevista con The Verge, el director de tecnología de OpenAI, Greg Brockman, dijo que "a veces [Codex] no sabe exactamente lo que le estás pidiendo" y que puede requerir un poco de ensayo y error.[12] Los investigadores de OpenAI descubrieron que Codex tiene problemas con las instrucciones de varios pasos y VentureBeat afirmó que, dado que Codex se entrena con datos públicos, podría ser vulnerable al "envenenamiento de datos" mediante cargas intencionadas de código malicioso.[9] Según un estudio realizado por investigadores de la Universidad de Nueva York, aproximadamente el 40% del código generado por GitHub Copilot (que utiliza Codex) en escenarios relevantes para los Enumeración de debilidades comunes (CWE) de alto riesgo incluía fallos u otros defectos de diseño explotables.[13] Derechos de autorLa Free Software Foundation expresó su preocupación por que los fragmentos de código generados por Copilot y Codex pudieran violar los derechos de autor, en particular la condición de la GPL que exige que las obras derivadas se licencien en términos equivalentes.[14] Las cuestiones que plantearon incluyen si la formación en repositorios públicos entra dentro del uso justo o no, cómo podrían descubrir los desarrolladores el código generado infractor, si los modelos de aprendizaje automático formados podrían considerarse código fuente modificable o una compilación de los datos de formación, y si los propios modelos de aprendizaje automático podrían estar protegidos por derechos de autor y por quién.[14][15] Un estudio interno de GitHub descubrió que aproximadamente el 0,1% del código generado contenía copias directas de los datos de formación. En un ejemplo, el modelo mostraba el código de los datos de entrenamiento que implementaba el algoritmo de la raíz cuadrada inversa rápida, incluyendo comentarios y un aviso de copyright incorrecto.[7] En respuesta, OpenAI declaró que "la inseguridad jurídica sobre las implicaciones en materia de derechos de autor del entrenamiento de sistemas de IA impone costes sustanciales a los desarrolladores de IA, por lo que debe resolverse con autoridad".[7] Los problemas de derechos de autor del Codex se han comparado con el caso judicial Authors Guild, Inc. contra Google, Inc., en el que los jueces dictaminaron que el uso por Google Books de fragmentos de texto de millones de libros escaneados constituía un uso legítimo.[7][16] Véase tambiénReferencias
|