Câmeras, comércio eletrônico e aprendizagem de máquina

Lente, no detalhe, do Nokia 925.

Mobile significa que, pela primeira vez, praticamente todas as pessoas terão uma câmera e tirarão significativamente mais fotos do que jamais foram tiradas em rolo de filme (“Quantas fotos?”). Isso parece uma mudança profunda, com o mesmo impacto de, digamos… o rádio transistorizado que tornou a música ubíqua.

O sensor de imagem em um smartphone é mais do que apenas uma câmera que tira fotos — é, também, parte das novas formas de se pensar interfaces e serviços mobile (“Imagens, Snapchat e mobile”) e parte de uma mudança geral daquilo que um computador é capaz de fazer (“Do mobile first ao mobile native”).

Em paralelo, sensores de imagem são parte de uma avalanche de componentes baratos e comoditizados vindos da cadeia de suprimentos do smartphone que possibilita todo tipo dispositivos outros conectados — tudo, do Amazon Echo e Google Home até uma tranca conectada ou os Spectacles do Snapchat (e, é claro, uma botnet de dispositivos da Internet das Coisas). Quando combinados a serviços de nuvem e, cada vez mais, à aprendizagem de máquina, esses não são mais apenas câmeras ou microfones, mas novos pontos finais ou de distribuição de serviços — são pedaços de aplicativos desempacotados (“Amazon Echo, interfaces e atrito”). Esse processo está apenas começando — agora parece que alguns casos de uso de aprendizagem de máquina podem ser embutidos em dispositivos minúsculos e baratos. Você pode treinar uma rede neural na nuvem a reconhecer se “tem uma pessoa nesta imagem?” com um vasto conjunto de imagens — mas para rodar isso, você pode colocá-la em um DSP barato com uma câmera barata, embalá-lo em plástico e vender por US$ 10 ou 20. Esses aparelhos permitirão o uso da aprendizagem de máquina em qualquer lugar, mas também que a aprendizagem de máquina assista e ouça em todos os lugares.

Dessa forma, os smartphones e a sua cadeia de suprimentos estão possibilitando uma avalanche de inovações em dispositivos e na experiência do usuário, com a aprendizagem de máquina alimentando tudo isso.

Todavia, eu acho que também é válido pensar de maneira muito mais ampla sobre o que a visão de computador, em especial, pode significar agora — pensar no que pode significar que imagens e vídeos sejam quase tão transparentes para computadores quanto o texto escrito sempre foi. Sempre foi possível fazer uma pesquisa de texto por “cachorro”, mas nunca procurar por um cachorro em imagens — e agora você pode fazer as duas coisas, e, mais que isso, começar a entender o que está de fato acontecendo.

Nós deveríamos esperar que cada imagem já capturada pode ser buscada ou analisada e algum tipo de insight, extraído, em uma escala massiva. Qualquer arquivo de revista é, hoje, um conjunto de dados estruturados, da mesma forma que qualquer feed de vídeo. Com esse incentivo (e aquela rede de suprimentos dos smartphones), um número muito maior de imagens será capturado.

Algumas questões para o futuro:

  • Todo carro autônomo irá, necessariamente, capturar vídeo de alta definição em 360º sempre que estiver se movendo. Quem é o dono desses dados? O que mais é possível fazer com eles além de dirigir? E como a nossa noção de privacidade se ajustará?
  • Um varejista pode implantar câmeras sem fio de alta definição baratas por toda a sua loja ou um shopping pode espalhá-las pelos corredores e lojas, e finalmente saber exatamente o caminho que cada uma das pessoas que entrou seguiu, o que elas olharam e, então, conectar isso aos caixas para gerar dados de consumo. Quanto isso mudará o varejo (o que sobreviver dele)?
  • O que acontece com a indústria da moda quando meia dúzia de câmeras estáticas de US$ 100 podem te dizer tudo o que qualquer um nos melhores pontos turísticos vestiu esse ano — quando você pode traçar uma tendência através de fotografia social e de rua do começo até o mercado de massa e, então, procurar pelos próximos padrões emergentes?
  • O que acontece com as recomendações do comércio eletrônico quando um sistema passa a ser capaz de inferir coisas sobre os seus gostos a partir das suas fotos no Instagram ou Facebook, sem precisar de tags ou histórico de compras — quando ele enxerga o seu histórico de compras nas suas selfies?

Varejistas online têm sido extremamente bons no varejo como logística, mas não tão bons com descoberta e recomendação — e muito menos em te mostrar coisas que você nem sabia que gostaria. Às vezes comparo a Amazon à Sears Roebuck de cem anos atrás — eles te deixam comprar qualquer coisa que você poderia comprar em uma cidade grande, mas eles não te deixam comprar do jeito que você compra em uma cidade grande. (Acho que esse é também um grande motivo pelo qual as vendas de e-books estabilizaram — o que você compra?)

Agora, imagine que você comprou todas as edições dos últimos dez anos da revista Casa e Jardim no MercadoLivre e as joga nas redes neurais certas e, então, dá àquele sistema uma foto da sua sala de estar e pergunta qual lâmpada ele recomenda. Todas essas fotos com legendas e os textos ao redor delas são dados para treinamento. E mais: se você não mostrar ao usuário uma foto real daquele arquivo, apenas uma recomendação baseada nele, você provavelmente não precisará pagar nenhum centavo à editora original da revista impressa. (Aprendizagem de máquina será um campo lucrativo para advogados de propriedade intelectual.) Não temos isso ainda, mas nós sabemos muito bem como fazer. Temos um caminho já traçado de como reconhecer alguns tipos de preferências, automaticamente e em escala.

O ponto-chave aqui é que as demonstrações chamativas de visão de computador que reconhecem um cachorro ou uma árvore, ou um pedestre, são apenas os primeiros casos de uso óbvios para uma nova e fundamental capacidade — a de ler imagens. E não apenas lê-las da mesma forma que os humanos, mas ler um bilhão delas e encontrar padrões. Entre tantas outras coisas, isso tem implicações para boa parte do varejo, incluindo setores que não foram afetados de fato pela Amazon, e, sem dúvida, para os US$ 500 bilhões investidos anualmente em publicidade.

Na verdade, porém, nós não sabemos quais podem ser todas essas implicações. Eu sugeri algumas das possibilidades comerciais mais grosseiras que podem resultar disso, mas existem muitas outras. A ciência já derrubou algumas atribuições de Grandes Mestres e criou outras — poderemos encontrar, ou esconder, um Rembrandt? Ou, ainda, conseguiremos transcrever os Cairo Geniza em uma década em vez de um século? Sendo capazes de transformar imagens em dados, encontraremos vários conjuntos de dados que jamais pensamos como tais e muitos problemas que não se pareciam com problemas de reconhecimento de imagens.


Publicado originalmente no blog do Benedict Evans em 20 de novembro de 2016.

Tradução por Leon Cavalcanti Rocha.
Foto do topo: Nokia.

O Manual do Usuário é um blog independente que confia na generosidade dos leitores que podem colaborar para manter-se no ar. Saiba mais →

Acompanhe

  • Telegram
  • Twitter
  • Newsletter
  • Feed RSS

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

1 comentário

Do NOT follow this link or you will be banned from the site!