OpenAI, Google y otras empresas tecnológicas Entrene su chatbot con grandes cantidades de datos extraídos de libros, artículos de Wikipedia y noticias. y otras fuentes de información a través de Internet, pero en el futuro esperan utilizar los llamados datos sintéticos. Esto se debe a que las empresas de tecnología pueden haber agotado el texto de alta calidad que Internet proporciona para el desarrollo de inteligencia artificial. y varias empresas Se enfrenta a demandas de derechos de autor por parte de autores, organizaciones de noticias y programadores informáticos. Dado el uso no autorizado de su trabajo (en un caso, The New York Times demandó a OpenAI y Microsoft), creen que los datos sintéticos ayudarán a reducir los problemas de derechos de autor y aumentarán el suministro de materiales esenciales de capacitación en IA. ¿Qué son los datos sintéticos? Son datos creados por inteligencia artificial. ¿Eso significa que las empresas de tecnología quieren que la IA sea entrenada por IA, en lugar de entrenar modelos de IA con texto escrito por personas? Empresas tecnológicas como Google, OpenAI y Anthropic esperan entrenar su tecnología con datos generados por otros modelos de IA. ¿Funcionan realmente los datos sintéticos? Por supuesto que no. Los modelos de IA cometen errores y crean otros nuevos. También demostraron que eran conscientes de los sesgos presentes en los datos de Internet en los que fueron entrenados. Entonces, si las empresas utilizan la IA para entrenarla, pueden amplificar sus propias deficiencias. ¿Las empresas de tecnología utilizan ahora ampliamente los datos sintéticos? Las empresas tecnológicas están experimentando con ello. Pero debido a que las posibles deficiencias de los datos sintéticos no son una parte clave de cómo se construyen los sistemas de IA hoy en día, ¿por qué las empresas de tecnología dicen que los datos sintéticos son el futuro? Las empresas creen que pueden mejorar la forma en que se crean los datos sintéticos. Explora una técnica en la que dos modelos de IA trabajan juntos para crear datos sintéticos más útiles y confiables. Un modelo de IA crea los datos. Luego, un segundo modelo juzga los datos. Al igual que los humanos deciden si la información es buena o mala. Precisos o no, los modelos de IA en realidad juzgan el texto mejor que la escritura. Nathan Lile, director ejecutivo de la startup de IA SynthLabs, dijo: «Si le das a la tecnología dos cosas, Es bastante bueno para seleccionar cuáles lucen mejor”. La idea es que esto proporcionará los datos de alta calidad necesarios para entrenar mejores chatbots. ¿Funciona esta técnica? Ordenar por Todo se reduce a ese segundo modelo de IA, qué tan bien juzga el texto. Anthropic ha sido el que más ha expresado sus esfuerzos para que esto funcione. Personalizó su segundo modelo de IA utilizando una «constitución» compilada por los investigadores de la empresa. Esto le enseña al modelo cómo seleccionar declaraciones que respalden ciertos principios, como libertad, igualdad y fraternidad, o vida, libertad y seguridad personal. El método de Anthropic se conoce como “IA constitucional” Así es como dos modelos de IA funcionan en conjunto para crear datos sintéticos usando un proceso como el de Anthropic: Aún así, los humanos deben asegurarse de que el segundo modelo de IA funcione según lo planeado. Esto limita la cantidad de datos sintéticos que este proceso puede generar. Y los investigadores no están de acuerdo sobre si métodos como Anthropic seguirán mejorando los sistemas de IA. Los datos sintéticos ayudan a las empresas ¿Es posible evitar el uso de datos protegidos por derechos de autor? Los modelos de IA que generan datos sintéticos se entrenan con datos generados por humanos. La mayor parte de esto está protegido por derechos de autor, por lo que los titulares de derechos de autor aún pueden argumentar que empresas como OpenAI y Anthropic utilizaron textos, imágenes y videos protegidos por derechos de autor sin permiso, dice Jeff Clune, profesor de ciencias de la computación en la Universidad de Columbia Británica, quien anteriormente trabajó como investigadores en OpenAI. que los modelos de IA eventualmente llegarán a ser más poderosos que el cerebro humano en algunos aspectos. Pero lo hacen porque aprenden del cerebro humano. «Tomando prestado de Newton: la IA verá más lejos si se sitúa encima de conjuntos de datos humanos gigantes», afirmó.
Source link
+ There are no comments
Add yours