O QUE É ANONIMIZAÇÃO E PSEUDOANONIMIZAÇÃO DE DADOS?

Entenda as novas nomenclaturas mencionadas na lei

Com o surgimento da Lei Geral de Proteção de Dados (Lei 13.709/2018), a chamada LGPD, a discussão e o estudo sobre a proteção conferida ao tratamento de dados pessoais têm abordado uma série de nomenclaturas novas que, por vezes, geram dúvidas aos destinatários do sobredito regramento. Dentre tais termos, estão questões sobre o que venha a ser dado anonimizado, anonimização, bem como pseudoanonimização.

Para esse esclarecimento, é preciso conhecer previamente o significado de  “dado”, com particular ênfase ao conceito de dado pessoal, tendo em vista que, uma vez considerado anônimo ou anonimizadado, não estará sob o âmbito material da referida legislação,o que permite concluir que terá tratamento menos rigoroso do que aquele conferido aos demais. Assim vejamos.

O que é um dado? Qual a distinção entre dados pessoais e dados anonimizados?

Considera-se “dado”, qualquer informação em potencial, porque os dados, em si, não possuem um significado próprio relevante. Eles se encontram no estado pré-informação e para ganharem o status informacional, requerem interpretação para posteriormente adquirirem sentido e poderem, assim, ser compreendidos por alguém [1]. Dados, portanto, não se confundem com informação.

O termo “dado pessoal” é apresentado pela LGPD, no art. 5º, inciso I, que o descreve como uma “informação relacionada a pessoa natural identificada ou identificável”. Muito embora não defina o que venha a ser pessoa natural identificável, é possível depreender a extensão de seu significado pela leitura do artigo 4º do Regulamento Geral Europeu (GDPR), fonte inspiradora da legislação nacional.

Nesse sentido, considera-se identificável uma pessoa natural que possa ser identificada, direta ou indiretamente, em especial por referência a um identificador, como um nome, um número de identificação, dados de localização, identificadores por via eletrônica ou a um ou mais elementos específicos da identidade física, fisiológica, genética, mental, econômica, cultural ou social dessa pessoa.

Além disso, a LGPD faz menção também aos chamados “dados sensíveis” (art. 5º, inciso II), considerando-os como uma categoria especial de dado pessoal por revelar a origem racial ou étnica, a convicção religiosa, a opinião política, a filiação a sindicato ou à organização de caráter religioso, filosófico ou político, ou ser dado referente à saúde ou à vida sexual, dado genético ou biométrico, quando vinculado a uma pessoal natural.

Assim, tendo em vista que, os dados pessoais apresentam um vínculo objetivo com a pessoa e revelam aspectos que lhe digam respeito e o distinguem de outras pessoas, sua proteção é considerada como um novo direito de personalidade e mecanismos que garantam a sua efetividade, tais como a anonimização, passam a ter uma aplicação importante.

Mas o que seria, então, a anonimização?

A anonimização é um mecanismo que busca garantir proteção à personalidade humana por meio do desfazimento de qualquer tipo de vínculo capaz de associar, direta ou indiretamente, um dado ao seu respectivo titular, valendo-se, para isso, da utilização de meios técnicos razoáveis e disponíveis no momento do tratamento dos dados pessoais.

Não é por outro motivo que tal mecanismo, além de ser um direito do titular de dados pessoais quanto aqueles considerados desnecessários, excessivos ou tratados em desconformidade com a lei (art. 18, IV, da LGPD), deverá também ter, sempre que possível, sua aplicação garantida no tratamento de dados pessoais sensíveis para a realização de estudos por órgãos de pesquisa (artigos 7º, inciso IV e 11, ambos da LGPD).

A anonimização dá origem ao chamado dado anonimizado que, por sua vez, é considerado o oposto do dado pessoal. Pelo seu significado semântico, seria aquele incapaz de revelar a identidade de uma pessoa e, por isso, não apresentaria necessidade de proteção legal.

 O dado anonimizado pode ser obtido por meio do emprego de técnicas como (VAINZOF, 2018):

  • randomização: em que se busca alterar a veracidade dos dados para remover a forte ligação entre eles e o titular por meio da aplicação de ruído ou permutação, por exemplo.
  • generalização: que visa tal objetivo generalizando um dado por meio da modificação, por exemplo, da ordem de magnitude. Assim, ao invés de atrelar ao dado tratado a cidade dele proveniente, correlaciona-o à região, dando, portanto, uma localização menos detalhada a fim de quebrar o vínculo de identificação.

Ainda no tocante às técnicas de anonimização, há autores que elencam o procedimento de “pseudoanonimização”, como uma de suas alternativas. Porém, essa distinção além se ser feita por muitos especialistas, foi também feita na Lei Geral de Proteção de Dados Pessoais por poder ensejar a reversibilidade dos danos anonimizados.

Em que consiste a psedoanonimização?

 A pseudoanonimização consiste num mecanismo de disfarce da identidade, substituindo-se um atributo por outro. Nele dados pessoais são tratados de forma a não poderem mais ser atribuídos ao respectivo titular sem recorrer à outras informações a ele correlatas. Sendo assim, tais informações suplementares são mantidas separadamente e sujeitas à medidas técnicas e organizativas para assegurar a desvinculação do dado pessoal ao seu titular. (MACHADO; DONEDA, 2018.)

Na pseudoanonimização são utilizadas técnicas como:

  • criptografia com chave secreta, pois embora a criptografia seja a ciência da escrita secreta (DONEDA; MACHADO, 2018), quando utilizadas, cifram informações que apenas o destinatário da comunicação ou o detentor de chave criptográfica poderão acessar e compreender seu conteúdo informacional. Assim, os dados pessoais embora criptografados continuam contidos no conjunto de dados que podem ser descriptografados pelo detentor da chave, reidentificando cada titular. 
  • tokenização, consistente na utilização do Token que é um recurso de segurança gerador de um código identificador digitalexclusivo, aleatório e temporário para proteger dados sensíveis. É  amplamente utilizada pelo setor financeiro para substituir números de identificação de cartões por valores. Veja, no link https://medium.com/@4all_tech/o-que-voc%C3%AA-precisa-saber-sobre-tokeniza%C3%A7%C3%A3o-a243c19153c1, o infográfico e vídeo elucidativos.
  • e outras, com a aplicação de algoritmo tais como: função hash com o uso de uma chave secreta com uma entrada adicional) e criptografia determinista ou função hash com exclusão da chave (VAINZOF, 2018). A respeito da função hash acesse o linkhttps://medium.com/basecs/taking-hash-tables-off-the-shelf-139cbf4752f0.

Como se pode depreender, o processo de pseudoanonimização contribui com o cumprimento da obrigação de proteção de dados pelos responsáveis por seu tratamento e, por consequência, reduz os riscos para os titulares de dados. Porém, por não garantir de maneira absoluta o afastamento de qualquer risco de identificabilidade, os dados pseudoanonimizados permanecem adstritos aos ditames da Lei Geral de Proteção de Dados Pessoais.

Assim, se um dado para ser considerado anônimo ou anonimizado e, portanto, livre da incidência da Lei Geral de Proteção de Dados Pessoais precisa ser desprovido de qualquer tipo de informação identificável, indaga-se se: 

Seriam as técnicas de anonimização realmente seguras a ponto de afastar absolutamente qualquer vínculo de identificação entre um dado anonimizado e seu titular?

A resposta para essa indagação é negativa e, como afirma BRUNO BIONI (BIONI, 2019), é cada mais comum a publicação de estudos que revelam a falibilidade dos processos de anonimização, rompendo a doutrina com a “suposição de anonimização robusta” (DONEDA; MACHADO, 2018).

Verifica-se que os dados anonimizados apresentam um risco residual aos seus titulares, porque embora não possam indicar com precisão o indivíduo a ele atrelado, existem outras fontes disponíveis, públicas ou não, e que podem ser utilizadas para a reversão do processo de anonimização. É o chamado efeito mosaico. Assim, não podem ser reduzidos à noção de dado não associado ao nome de alguém. Para ser anônimo, o dado não poderia ser vinculado à pessoa identificada ou identificável de forma permanente e irreversível (DONEDA; MACHADO, 2018)

O Caso Netflix Prize

Veja como exemplo o caso Netflix Prize em que os pesquisadores Arvind Narayanan e Vitaly Schmatikov reidentificaram a base de dados que havia sido anonimizada por meio da técnica de randomização.

Em resumo, a provedora de streaming de filmes criou um concurso visando a melhoria do desempenho de seu algoritmo de sugestões aos seus clientes. Para isso, disponibilizou sua base de dados, referente ao período  de 1998 a 2005, com apenas data e nota de avaliação, suprimindo os nomes dos usuários avaliadores.

Os pesquisadores mencionados, então, desenvolveram um algoritmo apto a calcular quantos bits de informação seriam necessários para reverter o processo e identificada a quantidade, recorreram às informações publicamente disponíveis e acessíveis no Internet Movies Databases/ IMDB. Correlacionaram tais informações com as existentes na base de dados disponibilizada e encontraram a identidade dos usuários avaliadores.

O exemplo demonstra, portanto, que uma base de dados embora anonimizada, pode ser reidentificada com base no cruzamento de dados presentes em outras bases disponíveis.

Assim, se a identificabilidade dos dados anonimizados é remota, porém possível, seria necessário que seu tratamento também fosse regido pela Lei Geral de Proteção de Dados Pessoais?

A resposta é negativa. Levando em consideração que a identificabilidade dos dados anonimizados é remota, porém possível (há risco inerente), a Lei Geral de Proteção de Dados Pessoais determina critérios de razoabilidade objetivos, como tempo e  custo necessários, para reverter o processo de anonimização, segundo a utilização exclusiva de meios próprios e de tecnologias disponíveis (art. 12 da LGPD). Se o esforço empregado na reversão for baixo, o dado anonimizado será considerado dado pessoal para fins desta lei.

Não é a mera possibilidade de um dado anonimizado poder ser revertido que o transformará em dado pessoal. Estabeleceu-se um “risco aceitável-tolerável” em torno da reversibilidade do processo de anonimização” pautado pelos critérios acima mencionados (BIONI, 2019).

Assim, esclarecidos os termos apontados no início do artigo, é importante ressaltar que, embora a anonimização seja um mecanismo relevante para a proteção de dados pessoais e, consequentemente da própria personalidade humana a ela correlata,  a sua reversibilidade remota, porém, implícita, indica que sua aplicação deve ser cuidadosamente planejada, levando em consideração  elementos técnicos e contextuais, para que garanta o almejado anonimato.

[1] Esclarece Danilo Doneda que: “A informação, por sua vez, alude a algo além da representação contida no dado, chegando ao limiar da cognição, e mesmo nos efeitos que esta pode apresentar para o seu receptor. Sem aludir ao significado ou conteúdo em si, na informação já se pressupõe uma fase inicial de depuração de seu conteúdo – daí que a informação carrega em si também um sentido instrumental, no sentido de uma redução de um estado de incerteza. A doutrina não raro trata estes dois termos indistintamente” (DONEDA, 2006).

Referências bibliográficas:

ARTICLE 29 DATA PROTECTION WORKING PARTY. Opinion 5/2014 on Anony-misation techniques. Bruxelas:

[s. n.]

, 2014. p. 20. Disponível em: https://ec.europa.eu/justice/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf. Acesso em: 29.10.2019

BIONI, Bruno Ricardo. Proteção de dados pessoais: a função dos limites do consentimento. Rio de Janeiro: Forense, 2019.

DONEDA, Danilo. O direito fundamental à proteção de dados pessoais. Direito digital: direito privado e internet/Allan Rocha de Souza [et al.]; organizado por Guilherme Magalhães Martins, João Victor Rozatto Longui. – 2.ed. – Indaiatuba, SP: Editora Foco, 2019, p. 35-53.

_______, Danilo. Da privacidade à proteção dos dados pessoais. Rio de Janeiro: Renovar, 2006. p. 152.

MACHADO, Diego; DONEDA, Danilo. Proteção de dados pessoais e criptografia: tecnologias criptográficas entreanonimização e pseudonimização de dados. Revista dos Tribunais . vol. 998. Caderno Especial. p. 99-128. São Paulo: Ed. RT, dezembro 2018 Disponível em: https://www.academia.edu/38168713/Prote%C3%A7%C3%A3o_de_dados_pessoais_e_criptografia_tecnologias_criptogr%C3%A1ficas_entre_anonimiza%C3%A7%C3%A3o_e_pseudonimiza%C3%A7%C3%A3o_de_dados Acesso em: 27/10/2019.

VAINZOF, Rony. Dados pessoais, tratamento e princípios. In: BLUM, Renato Opice; MALDONADO, Viviane Nóbrega (Coordenadores.). Comentários ao GDPR: Regulamento Geral de Proteção de Dados da União Europeia. São Paulo: Thomson Reuters Brasil, 2018, p.37/83.

4all. O que você precisa saber sobre tokenização. Medium. Disponível em: https://medium.com/@4all_tech/o-que-voc%C3%AA-precisa-saber-sobre-tokeniza%C3%A7%C3%A3o-a243c19153c1. Acesso em: 29/10/2019.

JOSHI, Vaidehi. Taking Hash Tables Off The Shelf. Medium. Disponível em: https://medium.com/basecs/taking-hash-tables-off-the-shelf-139cbf4752f0. Acesso em 29/10/2019.

UNIÃO EUROPEIA. Regulamento Geral de Proteção de Dados. Portal EUR-LEX. Disponível em: https://gdpr-info.eu/art-4-gdpr/. Acesso em: 27/10/2019.

Tags: LGPD, proteção de dados, dados, dados pessoais,dados anônimos, dados anonimizados, anonimização, pseudoanonimização;

Autora: Ana Carolina

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

A sua empresa já está certificada para a LGPD?

O IAPD é o instituto especializado em certificação de empresas e e de profissionais para avaliação da conformidade da sua atuação em relação à Lei Geral de Proteção de Dados. Prepare-se para as novas exigências do mercado no que se refere à privacidade e à segurança dos dados de seus clientes e parceiros.
Entre em contato

+55 (16) 99621-8887

/

/

Horário de Atendimento
Rolar para cima