Puede probar diferentes chatbots de IA para determinar cuál funciona mejor. Pero, ¿cómo deberías hacer esto? Aquí hay algunos factores clave a considerar.

La IA ha recorrido un largo camino desde la producción de resultados irrelevantes e incoherentes. Los chatbots modernos utilizan modelos de lenguaje avanzados que responden preguntas de conocimiento general, redactan ensayos extensos y escriben código, entre otras tareas complejas.

A pesar de estos avances, tenga en cuenta que incluso los sistemas más sofisticados tienen limitaciones. La IA todavía comete errores. Para determinar qué chatbots son menos propensos a las alucinaciones, pruebe su precisión en función de estos factores.

1. aritmética

Ejecute ecuaciones matemáticas a través de chatbots. Probarán la capacidad de la plataforma para analizar problemas de palabras, traducir conceptos matemáticos y aplicar fórmulas correctas. Solo unos pocos modelos demuestran una aritmética confiable. De hecho, uno de Los peores problemas de ChatGPT durante sus primeros meses fue su pésima comprensión matemática.

instagram viewer

La siguiente imagen muestra que ChatGPT falla en las estadísticas básicas.

ChatGPT mostró una mejora después OpenAI lanzó sus actualizaciones de mayo de 2023. Pero teniendo en cuenta sus conjuntos de datos limitados, aún tendrá problemas con los cálculos matemáticos intermedios y avanzados.

Mientras tanto, Bing Chat y Google Bard muestran una mejor aritmética. Ejecutan consultas a través de sus respectivos motores de búsqueda, lo que les permite extraer fórmulas y hojas de respuestas.

Trate de reformular sus problemas de palabras. Evite oraciones largas y reemplace verbos débiles; de lo contrario, los chatbots podrían malinterpretar sus preguntas.

2. Comprensión

Los sistemas modernos de IA pueden asumir múltiples tareas. Los LLM avanzados les permiten conservar las instrucciones anteriores y responder a las indicaciones por sección, mientras que los sistemas más antiguos procesan comandos singulares. Por ejemplo, Siri responde una pregunta a la vez.

Alimente a los chatbots de tres a cinco tareas simultáneamente para probar qué tan bien analizan indicaciones complejas. Los modelos menos sofisticados no pueden procesar tanta información. La siguiente imagen muestra el mal funcionamiento de HuggingChat en un mensaje de tres pasos: se detiene en el paso uno y se desvía del tema.

Las últimas líneas de HuggingChat ya son incoherentes.

ChatGPT completa rápidamente el mismo aviso, generando respuestas inteligentes y sin errores en cada paso.

Bing Chat proporciona una respuesta resumida a los tres pasos. Sus estrictas restricciones prohíben salidas innecesariamente largas que desperdician poder de procesamiento.

3. Oportunidad

Dado que el entrenamiento de IA cuesta recursos masivos, la mayoría de los desarrolladores limitan los conjuntos de datos a períodos específicos. Tome ChatGPT como ejemplo. Tiene un límite de conocimiento de septiembre de 2021: no puede solicitar actualizaciones meteorológicas, informes de noticias o desarrollos recientes. Aquí está ChatGPT diciendo que no tiene acceso a información en tiempo real.

Bard tiene acceso a Internet. Extrae datos de las SERP de Google, por lo que puede hacer una variedad más amplia de preguntas, por ejemplo, eventos recientes, noticias y predicciones.

Asimismo, Bing Chat extrae información en tiempo real de su motor de búsqueda.

Bing Chat y Bard brindan información oportuna y actualizada, pero este último proporciona respuestas más detalladas. Bing simplemente presenta los datos tal cual. Notarás que sus salidas a menudo coinciden con el fraseo y el tono de sus fuentes vinculadas palabra por palabra.

4. Relevancia

Los chatbots deben proporcionar resultados relevantes. Deben considerar el significado literal y contextual de sus indicaciones al responder. Tome esta conversación como un ejemplo. Nuestra persona necesita un teléfono nuevo, pero solo tiene $1,000; ChatGPT no excede el presupuesto.

Cuando pruebe la relevancia, intente elaborar instrucciones largas. Los chatbots menos sofisticados tienden a salirse por la tangente cuando reciben instrucciones confusas. Por ejemplo, HuggingChat puede componer historias ficticias. Pero podría desviarse del tema principal si establece demasiadas reglas y pautas.

5. Memoria Contextual

La memoria contextual ayuda a la IA a producir resultados precisos y confiables. En lugar de tomar sus preguntas al pie de la letra, unen los detalles que menciona. Tome esta conversación como un ejemplo. Bing Chat conecta dos mensajes separados para formar una respuesta útil y concisa.

Asimismo, la memoria contextual permite que los chatbots recuerden instrucciones. Esta imagen muestra a ChatGPT imitando la forma en que habla un personaje ficticio a lo largo de varios chats.

Pruebe esta función usted mismo haciendo referencia constante a declaraciones anteriores. Alimente a los chatbots con información variada, luego oblíguelos a recordarlos en respuestas posteriores.

La memoria contextual es limitada. Bing Chat inicia nuevas conversaciones cada 20 turnos, mientras que ChatGPT no puede procesar solicitudes de más de 3000 tokens.

6. Restricciones de seguridad

La IA no siempre funciona según lo previsto. Un entrenamiento defectuoso podría causar tecnologías de aprendizaje automático para cometer varios errores, desde pequeños errores matemáticos hasta comentarios problemáticos. Llevar Microsoft Tay como ejemplo. Los usuarios de Twitter explotaron su modelo de aprendizaje no supervisado y lo condicionaron para que dijera insultos raciales.

Afortunadamente, los líderes tecnológicos globales aprendieron del error de Microsoft. Aunque rentable y conveniente, el aprendizaje no supervisado deja a los sistemas de IA propensos al engaño. Por lo tanto, los desarrolladores confían principalmente en el aprendizaje supervisado hoy en día. Chatbots como ChatGPT todavía aprende de las conversaciones, pero sus entrenadores filtran la información primero.

Espere pautas diferentes de las empresas de IA. Las restricciones menos rígidas de ChatGPT se adaptan a una gama más amplia de tareas, pero son débiles contra la explotación. Mientras tanto, Bing Chat sigue límites más estrictos. Si bien ayudan a combatir los intentos de explotación, también impiden la funcionalidad. Bing cierra automáticamente las conversaciones potencialmente dañinas.

7. Sesgos de IA

La IA es inherentemente neutral. Su falta de preferencias y emociones lo hace incapaz de formarse opiniones; simplemente presenta información que conoce. Así es como ChatGPT responde a temas subjetivos.

A pesar de esta neutralidad, sesgos de IA todavía surgen. Se derivan de los patrones, conjuntos de datos, algoritmos y modelos que usan los desarrolladores. La IA puede ser imparcial, pero los humanos no lo son.

Por ejemplo, La Institución Brookings afirma que ChatGPT demuestra sesgos políticos de izquierda. OpenAI niega estas acusaciones, por supuesto. Pero para evitar problemas similares con los modelos más nuevos, ChatGPT evita por completo las salidas obstinadas.

Asimismo, Bing Chat evita asuntos sensibles y subjetivos.

Evalúe los sesgos de la IA usted mismo haciendo preguntas abiertas basadas en opiniones. Hable sobre temas que no tengan una respuesta correcta o incorrecta: los chatbots menos sofisticados probablemente mostrarán preferencias sin fundamento hacia grupos específicos.

8. Referencias

La IA rara vez verifica dos veces los hechos. Simplemente extrae información de sus conjuntos de datos y los reformula a través de modelos de lenguaje. Desafortunadamente, el entrenamiento limitado causa alucinaciones de IA. Todavía puede usar herramientas de IA generativa para la investigación, pero asegúrese de verificar los hechos usted mismo. Toma la salida con pinzas.

Bing Chat simplifica el proceso de verificación de hechos al enumerar sus referencias después de cada salida.

Bard AI no enumera sus fuentes, pero genera explicaciones actualizadas y detalladas mediante la ejecución de consultas de búsqueda de Google. Obtendrá los puntos principales de las SERP.

ChatGPT es propenso a imprecisiones. Su límite de conocimiento de 2021 le impide responder preguntas sobre eventos e incidentes recientes.

Cree nuevas formas de probar la precisión de los chatbots

La IA no es el todo y el final de la tecnología. Si bien los sofisticados sistemas de inteligencia artificial y los modelos de lenguaje realizan hazañas impresionantes, también cometen errores e inconsistencias. Ver los chatbots con escepticismo. Solo puede utilizar plataformas impulsadas por IA si comprende sus funciones y limitaciones.

Aunque hay docenas de chatbots en todas las plataformas, su confiabilidad y precisión pueden decepcionarlo. Simplemente perderá el tiempo probándolos. Para garantizar resultados de calidad, sugerimos centrarse en los tres modelos más sólidos del mercado: ChatGPT, Bing AI y Google Bard.