¿Cómo aprendió ChatGPT "Monday" chino taiwanés? PTT, Dcard y Nine Knives se leen

Question

El módulo de estilo de ChatGPT "Monday" suelta muchas frases y modismos taiwaneses porque "captura" mucho material de la red taiwanesa. (Sinopsis: ChatGPT lanzó la voz femenina cansada del mundo "Monday", perezosa y perdida en la comunidad para hacerse popular) (Suplemento de antecedentes: La Oficina de Propiedad Intelectual respondió oficialmente a "ChatGPT es una gran cantidad de imitaciones de Ghibli": la imitación de IA no es ilegal, según el caso) Cuando abra el módulo de voz estilo ChatGPT "Lunes", encontrará que "este tipo tiene un poco de frío y está cansado del mundo", y detectará su acento y hablará "mandarín taiwanés" en respuesta, ¿por qué suena tanto a taiwanés? La respuesta: ChatGPT ha admitido que captura una gran cantidad de datos en la web taiwanesa. ¿Qué es el "Modo Lunes"? Debemos aclarar que "Monday" no es un nuevo modelo GPT, ni una versión mejorada de GPT-5, sino un estilo de diálogo realizado por OpenAI con ajuste de estilo en la arquitectura GPT-4. En pocas palabras, la misma IA cambia su tono, como usar diferentes conjuntos de ropa, ir a trabajar y los fines de semana. El modo lunes es relajado, un poco frío, educado pero no verborrágico, y se siente como si acabaras de registrarte en la empresa el lunes y estuvieras muy melancólico. Un rastreador con una gran cantidad de datos taiwaneses entrena a OpenAI para entrenar a GPT, que en realidad es muy "de la vieja escuela" pero súper efectivo: ver toda la red explotada. Incluyendo sitios de noticias, Wikipedia, libros chinos, foros sociales, blogs, archivos PDF, historias negras que solías escribir en sitios sin nombre. Siempre que se trate de una página web pública, es muy probable que aquellos que pueden ser rastreados por los rastreadores sean arrojados al corpus para su entrenamiento. Comparamos las reacciones de comportamiento de los principales corpus de código abierto y GPT, y descubrimos que estos medios taiwaneses fueron leídos por ChatGPT: "United News Network", "ETtoday", "Zhongshi Electronic News", "Wind Media", "NOWnews"... Estos medios de comunicación tienen una cosa en común: no hay un muro de pago bloqueado, búsquedas en Google y la estructura del sitio web es limpia y fácil de escalar. Por el contrario, sitios como Tianxia, The Report y BusinessWeek que son pagados o bloqueados por muros de membresía tienen muy pocas posibilidades de ser capacitados. GPT realmente ha leído las obras de los escritores taiwaneses, GPT es muy bueno imitando el ritmo del diálogo de la novela al estilo de nueve cuchillos, y también puede decir oraciones sentimentales al estilo de Wu Nianzhen, e incluso el tono de "El gran río y el mar" de Long Yingtai tiene un poco de maestría. ¿Qué significa esto? De hecho, leyó, o al menos vio el clip republicado. Lo más probable es que estas obras fueran copiadas y pegadas en gran medida en PTT, blogs o sitios de republicación de contenido, y las primeras obras de Nine Knives incluso se publicaron directamente en guiones gráficos de PTT, y luego fueron capturadas por modelos como materiales de aprendizaje. ¿Si le preguntas sobre los detalles de la novela de Zhang Dachun o Luo Yijun? GPT suele empezar a decir tonterías, porque las obras literarias rara vez se discuten y citan, no hay archivos electrónicos públicos, no se reimprimen directamente en Internet, e incluso si lo hacen, no se pueden atrapar. PTT es el maestro de sentido taiwanés de GPT Esto es casi seguro: GPT entiende el terrier de los aldeanos, puede entender lo que es "tweet", "shh", "viejo conductor", incluso el sentido cansado del mundo de la placa Tech\_Job, se puede restaurar y el habla puede ser muy parecida a la de un ingeniero de bambú. ¿Por qué? Porque los datos de PTT han sido recopilados durante mucho tiempo por la comunidad académica en un corpus entrenable, publicado públicamente o en formato JSON. Es el paraíso para el modelo. Por el contrario, aunque Dcard es muy popular, pero el anti-rastreador posterior está funcionando bien, a excepción de los primeros artículos o eventos populares que se han reimpreso, es posible que ChatGPT no domine los artículos de Dcard en los últimos 2 años. El "alma" detrás del lunes se aprende de todas las palabras que has dejado en Internet en los últimos diez años. Así es, todo lo que dijiste, recuerda un poco. La próxima vez que hables con ChatGPT, piénsalo: "Eh, ¿no debería haber visto mi tuit en PTT hace diez años?" Lo más probable es que sí. Artículos relacionados ¡GPT-5 pospuesto! OpenAI empuja primero a o3, o4-Mini, Sam Altman autoexpuesto: la integración es más difícil de lo imaginado OpenAI fortalece a GPT-4o ¡Se apresuró al segundo lugar! Sam Altman: Mejor comprensión de las personas y la escritura de programas, la creatividad aumentó considerablemente OpenAI anunciado: Open Agents SDK es compatible con MCP, conectando todo a otro paso clave 〈¿Cómo aprendió ChatGPT "Monday" chino taiwanés? PTT, Dcard y Nine Knives han sido leídos" Este artículo se publicó por primera vez en "Dynamic Trend - The Most Influential Blockchain News Media" de BlockTempo.