Da Web2 à Web3: Por que estou otimista na trilha da IA

Autor: Zixi.eth, Matrix Partners China Investor Fonte: X (anteriormente Twitter) @Zixi41620514

Recentemente, comecei a me concentrar na trilha de IA Web2/Web3, na comunidade de modelos de código aberto na trilha de modelos globais, na trilha de dados e em vários middleware que servem o modelo grande - como o serviço de processo completo para o Modelo de Fundação no modelo de indústria e alguns Aplicativos. Damos as boas-vindas a todos os tipos de empreendedores para se comunicarem conosco, acreditamos que a IA será uma trilha de longo prazo.

Na primeira edição, partilharei que a indústria de etiquetagem de dados na pista de dados que definimos recentemente é também um objetivo muito satisfatório para mim este ano.

O desenvolvimento de IA pode ser dividido em preparação de dados com processos de coleta, limpeza, anotação e aprimoramento de dados como o corpo principal, e desenvolvimento de algoritmos com construção de modelos, treinamento, ajuste e implantação como o corpo principal. Entre eles, devido às necessidades diversificadas da IA na nova era para dados, como multimodalidade, alta precisão e forte personalização, a dependência dos dados de IA do trabalho humano na nova era também é muito alta, e também é necessário melhorar ainda mais a interação suave entre IA e pessoas para aumentar a eficiência. A rotulagem de dados refere-se à identificação e diferenciação de elementos de feição nas amostras de dados necessárias para o treinamento do modelo. Uma vez que o desenvolvimento da IA ainda se encontra em fase de aprendizagem supervisionada, a aprendizagem e verificação da informação de conotação de dados e a lógica entre dados no processo de formação de modelos de algoritmos de IA representados por deep learning são realizados com base na identificação de dados, sendo necessária a anotação de dados, que é uma das tarefas centrais da preparação de dados e até do desenvolvimento de projetos de inteligência artificial. Semelhante ao resto do fluxo de trabalho de preparação de dados, a rotulagem de dados é altamente dependente do trabalho. Longos ciclos de trabalho e enormes custos de mão de obra tornaram-se um dos principais fatores que restringem o desenvolvimento da indústria de IA. Os pontos problemáticos do lado da oferta dos serviços de anotação de dados geraram a demanda do mercado por ferramentas de automação e promoveram o desenvolvimento e a aplicação em larga escala da tecnologia inteligente de anotação de dados.

Figura 1: Da aquisição de dados aos conjuntos de dados utilizáveis por IA

! [hJQWkT4AU2PQ3QOm8pPJJBmxxDyRyO7j0J6qvdlU.png] (https://img.jinse.cn/7135831_watermarknone.png “7135831”)

Atualmente, no campo da condução inteligente, a jusante da maior aplicação de anotação de dados, ainda é necessário um grande número de seres humanos para rotular vários cenários, como cães e gatos, postes telefônicos, carrinhos de bebê, etc. Por exemplo, a Scale AI é um importante provedor de dados para a OpenAI, e eles estabeleceram seus próprios estúdios de anotação de dados em países do terceiro mundo ao redor do mundo para ajudar a OpenAI na anotação de dados de texto/imagem.

No entanto, com o avanço da IA, a proporção de pré-anotação no fluxo de trabalho está aumentando gradualmente. Nos primeiros dias, a anotação de dados era feita principalmente manualmente para criar e acumular conjuntos de dados de aprendizado de máquina. Embora relativamente ineficientes e dispendiosos, os dados fornecidos à máquina têm uma grande vantagem, desde que as anotações estejam em vigor. Com o tempo, o foco da anotação manual mudou gradualmente dos Estados Unidos para países do terceiro mundo, como Venezuela e Filipinas, para reduzir custos.

À medida que o modelo se desenvolve, a precisão da anotação de dados automatizada melhora, e o modelo pode ser usado para ajudar na anotação manual, como o pré-processamento de dados do modelo e, em seguida, enviá-los para anotação humana, ou os resultados da anotação fornecidos pelo modelo automatizado são manualmente revisados e corrigidos. Em comparação com a anotação manual pura, a anotação assistida por IA acelera a velocidade da anotação de dados. Atualmente, uma das maiores empresas de rotulagem de dados do mundo, como a Scale AI, está trabalhando para reduzir a proporção de envolvimento humano no processo de rotulagem de dados.

Embora a pré-anotação tenha alcançado bons resultados no campo da visão computacional, na nova era das linguagens e dos grandes modelos, a pré-anotação ainda é muito imatura e não pode substituir completamente o trabalho humano. As razões são as seguintes:1. Baixa precisão, especialmente ao lidar com tarefas complexas e casos de borda. 2. Enviesamento da amostra e problemas de alucinações de modelos. 3. Algumas verticais exigem grandes conjuntos de dados anotados por especialistas no assunto. 4. A escalabilidade da pré-anotação é fraca, especialmente para idiomas pequenos ou cenários incomuns, o custo é alto e a qualidade é ruim, e ainda precisa ser concluída manualmente.

Em resumo, a pré-anotação não substituirá completamente a anotação manual a curto prazo, e as duas coexistirão. Embora a porcentagem de anotação manual possa diminuir, os auditores ainda são obrigados a revisar a anotação de dados durante o processo de anotação.

Figura: Processo de rotulagem de dados sob pré-rotulagem

! [KZJdLcjAdtw08bJNZ6Z0ZURmCjqKjsv9LM9U4HrO.png] (https://img.jinse.cn/7135843_watermarknone.png “7135843”)

A indústria de anotação de dados não é nova, começou a surgir em 17/18 com a ascensão da condução inteligente. O gráfico abaixo mostra o tamanho previsto do mercado de fornecedores de rotulagem de dados na China, e vale a pena mencionar que o tamanho do mercado de rotulagem de dados nos Estados Unidos é aproximadamente 3-5 vezes o da China.

A indústria de etiquetagem de dados é um mercado relativamente fragmentado, não como um campo com barreiras técnicas extremamente elevadas, mas mais como um campo com barreiras de gestão técnicas, humanas e organizacionais que representam um terço cada. A competitividade central neste domínio reflete-se principalmente nos seguintes aspetos:1. Preço 2. Qualidade 3. Cobertura de competências e conhecimentos (diversidade?)4. velocidade

O preço é óbvio, porque todas as pessoas precisam de muitos dados baratos. As pressões de preços impulsionam uma forma de arbitragem geográfica, enquanto nos Estados Unidos desenvolvidos, pode custar US $ 1 para pagar um salário para completar um rótulo de dados, enquanto na China menos desenvolvida, custa apenas US $ 0,5, e nas Filipinas pode custar tão pouco quanto US $ 0,1. Portanto, uma das soluções no mercado é dar ordens para países de primeiro mundo e, em seguida, recrutar pessoas em países de terceiro mundo para resolver o problema através de estúdios operados diretamente.

A qualidade dos dados também é fácil de compreender, sendo necessários dados de alta qualidade no domínio dos grandes modelos e da condução inteligente. Se a qualidade dos dados inseridos no modelo for fraca, o desempenho do modelo grande também será prejudicado. Uma das soluções eficazes para resolver o problema de qualidade de dados é gerar dados brutos através da pré-etiquetagem do modelo e, em seguida, anotar manualmente e, em seguida, realizar continuamente aprendizagem de reforço e feedback humano para melhorar a qualidade da rotulagem de dados. Ou, a equipe precisa ser muito clara sobre o processo de rotulagem de dados para clientes downstream e ser capaz de desenvolver procedimentos operacionais padrão (POPs) para que a equipe de anotação de dados possa anotar de acordo com os POPs para melhorar a qualidade.

Mas como entender a cobertura de expertise e conhecimento? Vejamos três exemplos:

  1. Trata-se de um desafio considerável no modelo geral. Anotar modelos de texto grandes pode ser relativamente fácil, mas você tem que encontrar pessoas que possam anotar vários idiomas, como chinês / inglês / francês / alemão / russo / árabe, e como uma empresa de rotulagem de dados pode recrutar e gerenciar tantas pessoas distribuídas em escala global será um desafio.

  2. Considere uma startup de aplicação de IA no campo de voicebots/humanos digitais. As startups muitas vezes não têm tempo, mão de obra e dinheiro para montar uma equipe de anotação de dados internamente. Eles precisavam encontrar uma equipe terceirizada para ajudar a rotular famílias de língua chinesa, como sotaque de Sichuan, sotaque cantonês, sotaque de Xangai, sotaque do nordeste, etc., bem como famílias de língua inglesa, como sotaque inglês norte-americano, sotaque inglês britânico e sotaque inglês de Cingapura. Encontrar um bom estúdio de anotação de dados no mercado que possa lidar com essas tarefas pode ser muito difícil. Se forem adotadas vendas diretas ou subcontratação, pode demorar um ou dois meses de tempo de trabalho entre a receção das encomendas e o recrutamento, o que afetará seriamente a eficiência da oferta.

  3. Considere uma área mais de nicho, onde uma startup focada em modelos jurídicos exige muita anotação de dados jurídicos. A área do direito ainda tem exigências profissionais bastante elevadas, e as startups precisam encontrar um provedor de anotação de dados que atenda aos seguintes critérios:1. Pelo menos uma dúzia de pessoas que entendem a lei, e também podem precisar cobrir a lei chinesa, a lei de Hong Kong, a lei americana, etc.; Deve ser capaz de compreender chinês e inglês;3. O custo não pode ser muito alto. Se você pedir a um advogado para fazer a rotulagem, ele pode estar relutante em fazer o trabalho por causa do salário mais alto do advogado. Portanto, a solução atual para esse tipo de segmentação só pode ser recrutar estagiários internamente para trabalhar na anotação de dados. Para o modo de gestão de vendas diretas e subcontratação, ainda é bastante difícil completar a trilha de tais subdivisões.

Assim, os principais players do mercado podem ser divididos em três categorias:1. Feito internamente por grandes empresas (por exemplo, o crowdsourcing Baidu);2. Startups com modelo direto/subcontrato (analisado abaixo); Pequenos e médios estúdios de anotação de dados.

Gráfico: O tamanho do mercado de dados no mercado de IA da China

! [F1zEq2z7zALsirAXyNV94uPmTLqwewBYopHlxyI5.png] (https://img.jinse.cn/7135849_watermarknone.png “7135849”)

Antes de mergulharmos, vamos dar uma olhada nas startups líderes atuais no espaço:

  1. Scale AI: O principal negócio da Scale AI nos Estados Unidos abrange quatro aspetos: anotação de dados, gerenciamento e avaliação (controlar a qualidade dos dados anotados e melhorar a eficiência da anotação), automação (anotação auxiliar para melhorar a eficiência) e síntese de dados (quando o modelo está se tornando cada vez mais abundante, e os dados reais não são suficientes, é necessário sintetizar automaticamente o modelo de alimentação de dados, e falaremos sobre a trilha de dados sintéticos mais tarde). A Scale AI inicialmente se concentrou na anotação de direção autônoma e, há dois anos, 80-90% dos pedidos da empresa vinham da direção autônoma (2D, 3D, LiDAR, etc.), e essa proporção diminuiu nos últimos anos. A fonte de pedidos da empresa é uma resposta à tendência da indústria de fornecedores, e nos últimos anos, o governo, e-commerce, robôs, modelos de grande porte e outros campos se desenvolveram rapidamente, juntamente com a grande capacidade da equipe de entender as tendências da indústria, para que possa manter uma alta participação de mercado em cada segmento. Além disso, a Scale AI lançou seu próprio serviço Model as a Service, como ajudar os clientes a ajustar, hospedar e implantar modelos.

Existem dois tipos de modelos de carregamento:

  • Base de consumo: Por exemplo, Scale Image começa em 2 centavos por imagem e 6 centavos por rótulo, Scale Video começa em 13 centavos por quadro de vídeo e 3 centavos por rótulo, Scale Text começa em 5 centavos por trabalho e 3 centavos por rótulo, e Scale Document AI começa em 2 centavos por trabalho e 7 centavos por rótulo.

  • A base de projetos, que se baseia na quantidade de dados do contrato, etc., é na verdade uma receita baseada em projetos, com um valor unitário que varia de centenas de milhares de dólares a dezenas de milhões de dólares.

Com receita projetada de US$ 290 milhões em 2022 e uma avaliação atual de US$ 7 bilhões, a Scale AI é a maior empresa de anotação de dados do mundo. Os investidores da empresa também são muito luxuosos.

  1. AAC haitiana: A AAC haitiana da China também desempenha um papel importante no campo da anotação de dados. A empresa tem uma vasta experiência em anotação de dados, limpeza de dados, análise de dados, etc. No entanto, as informações sobre o seu modelo de negócio pormenorizado, métodos de tarifação e financiamento ainda não são claras.

  2. Appen: A Appen da Austrália é outra das principais empresas de anotação de dados do mundo. Semelhante ao Scale AI, o Appen fornece serviços como anotação de dados, coleta de dados de voz e tradução. A empresa tem um grande número de anotadores em todo o mundo para fornecer aos clientes serviços de anotação de dados de alta qualidade. O modelo de negócios detalhado e o financiamento da Appen também merecem um estudo mais aprofundado.

! [xa4j0mwuoOYQ00imQe68w3BjAnA4g95Ujfgfyyt2.png] (https://img.jinse.cn/7135866_watermarknone.png “7135866”)

! [a7IUQulVILcdWIgIDUEaI03FMCYU7v9dD8na50Z7.png] (https://img.jinse.cn/7135867_watermarknone.png “7135867”)

Essas três empresas ocupam uma posição significativa no espaço global de anotação de dados, representando as posições de liderança neste campo nos Estados Unidos, China e Austrália, respectivamente. Antes de mergulharmos nos modelos de negócios das startups e na concorrência de mercado, uma compreensão dessas empresas líderes ajudará a fornecer uma compreensão mais abrangente do contexto da indústria como um todo.

A AAC haitiana é uma empresa listada em ações A, mas não é exatamente uma empresa de rotulagem de dados. Em comparação com a construção de sua própria equipe para fazer anotação de dados, a Haitian é essencialmente um provedor de serviços técnicos, terceirizando pedidos para vários estúdios. O núcleo da expansão da AAC haitiana na China depende: 1. Tem um profundo acúmulo em anotação de fala, cobrindo mais de 190 idiomas (representando 70-80% da receita) 2. Efeito de escala 3. Boa capacidade de internacionalização. Na China, a indústria de rotulagem de dados é muito selvagem e precoce, muito dispersa e desordenada, e também há uma falta de padrões e normas da indústria.

! [6iWBdOeecyfMWXlJNqoFBPfQ2uR8DBFnFMCq1Lzp.png] (https://img.jinse.cn/7135868_watermarknone.png “7135868”)

! [wLae6HBKOMqrzEuPewUKwzonMRcOT3qGYE3naIit.png] (https://img.jinse.cn/7135871_watermarknone.png “7135871”)

Podemos olhar para a comparação do modelo de negócios entre (Appen) e Haitian para ver o modelo de negócios de vendas diretas / outsourcing e a experiência de lucro bruto.
Figura: Modelos de Negócio Diretos/Outsourcing…

! [TQDXGwKEyjSFDYrMViQMs5PBpW3j7KXs4wMmU3ne.png] (https://img.jinse.cn/7135872_watermarknone.png “7135872”)

! [RUb44Sii8E9I8kPM9J4yiUFtE7U7t52KUh1s6jd1.png] (https://img.jinse.cn/7135873_watermarknone.png “7135873”)

Com tanto prenúncio, os leitores com boas lembranças não pensaram em como nosso título remodela a anotação de dados com blockchain. O texto completo ainda não falou sobre o blockchain, como reformulá-lo?

O futuro da IA deve ser aberto e soberano, quer se trate de dados, poder de computação ou modelos, devendo proporcionar um acesso universal e aberto à sociedade com base na garantia de elevada qualidade e eficiência. Todos os participantes que ajudam a promover a IA devem ter direitos de propriedade sobre as suas próprias contribuições e resultados, bem como uma distribuição razoável e recompensas dos benefícios.

Nossa recente empresa de investimento, Quest Labs, visa redefinir a relação entre IA e pessoas na nova era, e usar IA e tecnologia blockchain para interromper e resolver pontos problemáticos existentes na indústria. Como uma pá necessária no upstream da cadeia da indústria de IA, o serviço de dados é o primeiro problema que a Quest quer resolver. Promover a eficiência da produção de dados por meio da IA e redefinir o modelo econômico e a captura de valor de conjuntos de dados públicos na nova era por meio do blockchain, que se complementam para produzir continuamente dados de alto valor e melhorar a capacidade e a cognição dos anotadores de IA.

1.AI e Inteligência Colaborativa Humana:

  • Uma infraestrutura inteligente human-in-the-loop, centrada em IA para permitir e incentivar as equipes humanas a interagir suavemente com modelos de copiloto,提供高精度数据,并迭代提高质量,以在lifecycle中生成高价值数据
  • Um mercado descentralizado, alimentado pela Humans Ops Tool, que maximiza a eficiência da gestão descentralizada da força de trabalho e otimiza a colaboração e a comunicação através de uma rede global de equipes distribuídas
  1. Divulgação de dados, privacidade e propriedade
  • A plataforma incentiva profundamente o tráfego e a adesão dos usuários por meio de fluxo de caixa pago e tokens, e estimula constantemente o efeito volante de dados, capturando o comportamento e os dados históricos de oferta e demanda para aprender continuamente uns com os outros. Os algoritmos são usados para recomendar e formular estruturas de demanda de dados para garantir valor comercial futuro (mineração de domínio rígido), cobrindo um grande número de cenários de segmentação vertical. Todos os participantes da marca de dados podem começar a fornecer conjuntos de dados com antecedência para serem chamados e comercializados, e receber fluxo de caixa e recompensas de token, tornando-se uma valiosa rede de dados de IA aberta na nova era.
  • Criptografia de dados e proteção de privacidade: ZK e FHE são usados para criptografar melhor os dados do usuário para processamento e armazenamento.
  • A tecnologia Blockchain é utilizada para rastrear e verificar a propriedade dos dados pelos participantes, incluindo diferentes resultados, tais como recolha e anotação, e os seus valores correspondentes.
  1. Novo modelo económico
  • Através da Meituan, uma plataforma global de serviços de dados de IA que corresponde automaticamente à IA, mudaremos de uma economia planificada centralizada para uma economia de mercado.
  • Garantir a credibilidade da reputação + sistema de liquidação de otimização de moeda digital através da tecnologia blockchain, expandir infinitamente o fluxo de pessoas do lado da oferta para fazer correspondências precisas, para que as pessoas certas possam fazer a coisa certa, a fim de ser eficiente e de qualidade. Através da sobreposição de serviços de etiquetagem de dados e da população pobre, o emprego + inclusão financeira é alcançado disfarçadamente.
  1. Os tokens são dados aos usuários para incentivar a aprendizagem contínua e serviços e resultados de alta qualidade e, ao mesmo tempo, incentivar os usuários a fornecer feedback de alta qualidade e eficaz para otimizar o modelo de plataforma para aumentar a eficiência e a produtividade de todo o pipeline (aprendizagem contínua mútua humana e de IA).
  • Distribuição razoável de benefícios e captura de valor de acordo com POPW através de tokens, reduzir melhor o CAC e, em seguida, aumentar a retenção

Do ponto de vista do mundo da web2, esta é uma plataforma de distribuição para anotação de dados, um pouco como Didi e Meituan Takeaway. Mas do ponto de vista da web3, este é um Axie Infinity+YGG com fluxo de caixa real. No mercado altista de 2021, a combinação de Axie e YGG trouxe um número considerável de usuários do terceiro mundo para a Web3, e esse tipo de guilda de jogos alimentou um número muito grande de famílias do terceiro mundo durante a epidemia, especialmente as Filipinas. O mercado também deu a Axie e YGG retornos muito bons, e eles são alfas muito interessantes. Como um investidor na ponte Web2 e Web3, estamos muito dispostos a apoiar projetos e equipes que usam a tecnologia blockchain para contribuir para negócios reais, e estamos ansiosos para o desempenho da equipe no futuro. Esta é também a direção em que vemos que poucas tecnologias Web3 podem dar asas aos negócios Web2.

ETH-2,47%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)