Cuidado com o #10yearchallenge (desafio dos 10 anos)


16/1/19 às 8h20

O desafio dos 10 anos, ou #10yearchallenge, viralizou nas redes sociais. Ele consiste em publicar duas fotos, uma atual e outra de dez anos atrás, para mostrar aos seguidores com você mudou. Na Wired, Kate O’Neil o observa do ponto de vista da privacidade.

Todas essas fotos de rostos com datas mais ou menos precisas são um pote de mel para treinar algoritmos de reconhecimento facial/envelhecimento. E como existem alguns padrões no compartilhamento, fica fácil capturá-las automaticamente.

Lembre-se: foi com um joguinho no Facebook que a Cambridge Analytica conseguiu coletar dados de 70 milhões de usuários norte-americanos e, depois, usá-los para manipular as eleições presidenciais dos EUA de 2016.

O pesquisador de aprendizagem de máquina e professor da Universidade de Michigan, Bill Hart-Davidson, compartilhou mais detalhes sobre o valor desses dados:

Reunir esse tipo de conjunto de dados usando aprendizagem supervisionada seria caro. Se você reduz drasticamente o custo e produz um conjunto de dados de reconhecimento facial com baixo nível de ruído, consegue vendê-lo para todo tipo de pessoa. Bons dados de treinamento são difíceis de encontrar. Pelo caminho, pode haver pessoas com motivos nefastos. Mas antes disso, [a brincadeira] parece um modelo de negócio.

As consequências na aplicação desses dados são diversas, nem todas ruins. O’Neil lembra, por exemplo, que essa tecnologia facilita encontrar crianças desaparecidas há muito tempo. Mas elas também podem te afetar negativamente, como um plano de saúde aumentar a sua mensalidade se detectar que você envelheceu mais que a média das pessoas da sua idade. Hart-Davidson acredita, porém, que o maior dano é coletivo — a disponibilidade farta de dados desse tipo nos aproxima do universo de vigilância constante retratado no filme Minority Report, diz ele.

O importante, em qualquer caso, é ter consciência do que exatamente estamos divulgando voluntariamente. (A internet virou uma espécie de piscina suja em que é preciso pensar muito antes de mergulhar.) Não adianta cobrar das empresas cuidado com nossos dados se nós mesmos não somos diligentes com eles.

Newsletter

O melhor do Manual do Usuário:


Nas redes sociais, notícias o dia todo:
Twitter // Telegram

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

25 comentários sobre “Cuidado com o #10yearchallenge (desafio dos 10 anos)”

  1. Ghedin, algumas dúvidas?

    1) Qual a implicação em utilizar o Google Photos? …utilizo obviamente pelo limite ‘infinito’ de armazenamento. Virou uma espécie de backup.

    2) Quais os prósXcontras em utilizar instagram fazendo um uso ‘normal’, isto é, …postar fotos de alguns lugares idos, ou do cotidiano, bem como fotos pessoais e de pessoas próximas?

    ———————-
    Essa tá um pouco fora da pauta, mas vinha guardando há algum tempo.

    3)Qdo vc pensou em remodelar o blog, cogitou utilizar o Medium? …vê futuro nessa plataforma (Medium)?

    1. 1) O uso que o Google faz das imagens. Ao subir fotos para lá, você basicamente alimenta o algoritmo de segmentação de anúncios, ou seja, ensina voluntariamente ao Google quem você é, do que gosta, com quem anda e que locais frequenta. Prefiro pagar R$ 3 por mês e colocar minhas fotos no iCloud, onde elas não serão usadas contra mim.

      2) Quando usamos essas redes sociais, em especial a do Facebook, pagamos o uso com a cessão da nossa privacidade. Toda foto publicada, todo comentário e curtida feito e toda interação na plataforma é coletada para tentar entendê-lo melhor e, com isso, estreitar a segmentação dos anúncios. A médio ou longo prazo, isso mina a sua capacidade de agência, de determinar por si só, sem a ajuda do algoritmo, as suas preferências. E influencia, também, o seu consumo devido aos anúncios veiculados ali.

      É um sistema orwelliano que se alimenta da sua participação, então não consigo enxergar um modo de uso “normal”, ou seja, que escape a essa dinâmica de vigilância e segmentação. A única maneira de escapar disso é não participando.

      3) Jamais cogitei o Medium. É uma plataforma que sempre pensará nos seus interesses antes dos dos seus usuários. Exemplo prático: uns anos atrás, algumas publicações como o The Awl foram convidadas a migrarem para o Medium, porque o modelo de negócio deles, na época, era atrair grande publicações para vender projetos publicitários. Um dia, do nada, eles mudaram o modelo (“pivotaram”) e disseram aos parceiros que não teriam mais aquela fonte de receita que havia prometido. O The Awl fechou.

      Certas coisas não dá para deixar na mão de terceiros. O gerenciador de conteúdo em uma publicação é crítico; todo o resto é montado em cima dele. Não dá par terceirizar.

      1. Primeiramente, desculpa pela minha demora no retorno.
        Muitíssimo obrigado pelas respostas! por todas!!

        …Já usei muito o facebook, hj utilizo muito pouco, vez ou outra entro p me “atualizar” sobre os contatos. …e tenho me assustado pq as propagandas, vídeos e conteúdos que aparecem no face são conteúdos pesquisados no google (não foram pesquisadas no face)!!

        …o foda é q o instagram, facebook, whatsapp, twitter, medium, Photos… vão nos encurralando, chega a um ponto que é praticamente inevitável não usar.

        …Estou me ajustando:
        * O email passou a ser ProtonMail; o gmail e o outlook agora são para cadastros.
        * Conteúdo da web, agora recebo pelo Feedly.
        * Facebook, apenas para manter os ‘contatos’ …e agora separados por listas. A timeline virou uma coisa doentia. (mas qualquer dia desses excluo o face)
        * Instagram, pretendo não colocar fotos pessoais.. apenas fotos gerais (paisagens, livros, …) e manter o contato apenas com as pessoas mais próximas.
        * Twitter, criei um personagem.. e acompanho algumas pessoas q são referências, e interajo.
        * Futuramente pretendo migrar de plataforma para apple, que tem seus problemas, mas aparentemente não chega aos pés do Google e Facebook (comput, smartphone, fotos, drive)

        …tem sido uma loucura, mas se eu já tivesse me alertado sobre essas coisas antes hj seria “menos problemático”.

      1. É um Razer Cyclosa. A grande vantagem dele é ser gostoso de digitar (quase como um mecânico) e não ter LED’s coloridos. Vale a pena também pelo anti-ghosting e pelas macros (mas precisa instalar o SW da Razer pra isso, coisa que eu não fiz e não farei).

        O grande ponto fraco dele é, exatamente, não ser mecânico.

  2. Para quem ainda tem dúvidas da importância dos dados, eu posso ilustrar com um caso que aconteceu comigo no distante ano de 2000. Eu mandei um trabalho para um concurso que estava tendo em um órgão governamental e ganhei. Ocorre que em conversa com os jurados, eles me disseram que o segundo colocado no concurso tinha as mesmas premissas que eu tinha feito, os mesmos argumentos, o mesmo embasamento teórico e tinha chegad à mesmas conclusões. E tudo isso melhor do que eu tinha feito. Só que na parte dos dados, o segundo colocado trabalhou com 17 casos, enquanto eu tinha feito o mesmo com mais de 5.000. Então os jurados chegaram à conclusão que o meu trabalho merecia o primeiro lugar por causa da grande base de dados na qual eu baseie minha conclusões. (Ressalta-se que 5.000 casos era quase toda a população do objeto de estudo em questão. Os 17 casos que o segundo colocado do concurso tinha trabalhado estava contido nos meus 5.000, e os jurados acharam que não era possível chegar a qualquer conclusão sobre toda a população om apenas 17 casos).

    1. Você leu o Rápido e Devagar [Amazon, Americanas], do Daniel Kahneman? Tem uma parte que fala exatamente do tamanho das amostragens em projetos de pesquisa. Ele argumenta (e escreveu um artigo com suas descobertas, junto com Amos Tversky) que pesquisadores são péssimos em estimar o tamanho ideal das amostragens em experimentos científicos.

      O autor se refere a esse problema como a “lei dos pequenos números”, que, dependendo da amostragem — quando ela é insuficiente —, distorce resultados que, com uma maior, representativa do todo, seriam diferentes.

      O livro é uma viagem, tem uma série de comportamentos e intuições nossas que, na real, são frutos da nossa cabeça. Vale a leitura!

      1. Não li, mas concordo com ele que o tamanho da amostragem é mesmo um grande problema na maioria dos experimentos científicos. Eu mesmo não tenho a mínima capacidade de fazer uma amostra estatisticamente representativa, por isso tentei pegar a população inteira que era o objeto do estudo no meu trabalho. Mesmo assim ficou cerca de 5% dos casos de fora por falta de dados e por isso eu não afirmo em nenhuma parte do meu estudo que aquele conjunto de dados é representativo da população.

        Acabo por tratar também como um estudo de caso, assim como fez o segundo colocado do concurso, mas acredito que os jurados tomaram como certo que um estudo de caso de 5.000 em uma população de 5.500 é mais representativo que um estudo de caso de 17 nessa mesma população.

  3. Mas o FB já não tem esses dados? Digo, o FB existe desde 2004 e desde 2007 atua no Brasil e imagino que não deva ser muito diferente nos outros países principais.

    1. A Kate rebate esse argumento. Existe, mas são dados “sujos”. Você pode ter enviado a mesma foto em datas diferentes, ter digitalizado uma foto antiga, ter apagado os dados EXIF ou mesmo usar fotos de animais ou outras imagens que não sejam seu rosto como imagem de perfil.

      No desafio, o dado já vem limpo. As datas são minimamente aproximadas para se ter uma ideia da diferença temporal entre elas — dez anos. São fotos suas, antes e depois, associadas ao seu perfil na rede social. E para as interações irônicas (com imagens de desenhos ou qualquer outra coisa que não rostos), o algoritmo é bem bom em distinguir rostos, ou seja, ele descarta de pronto esse ruído.

      1. Ah, será? Não sei… que % apagaria EXIF? As imagens digitalizadas também me parecem exceção ser exceção, afinal estamos falando de 2009. Se não smartphones, câmeras simples digitais eram relativamente comuns.

        Digo, lógico que essa campanha dá mais alguma munição, mas não parece nem um pouco imprescindível para quem já tinha esse poder.

  4. Isso me lembra os captchas da vida, que além de provarmos que não somos robôs, treinamos os mesmos para reconhecer padrões em imagens.

      1. Eu odeio do fundo do coração esses CAPTCHAS do Google que ajudam a treinar motorista robô. “Quantos semáforos você está vendo aqui?”, “onde tem faixa de pedestre?”, e nessa estamos todos, coletivamente, trabalhando de graça para uma empresa gigantesca sem a chance de se negar.

        Para ter fotinha, é só se cadastrar no Gravatar. (É de boa; o Gravatar é da Automattic, dona do WordPress e, até onde sei, tem uma política de privacidade ok.)

  5. De fato, pode ser usado de várias formas esses dados, principalmente para aprimorar algoritmos de reconhecimento facial em questão dos tempos.

    Os dados hoje são o capital dessas empresas, o que diferencia o Google não é (apenas) o conhecimento em machine learning deles mas os dados que somente eles podem mexer.