เราสามารถรวบรวมข้อมูลส่วนบุคคลโดยการปกป้องความเป็นส่วนตัวได้หรือไม่?

167

เทคนิคเล็ก ๆ น้อย ๆ ของการรักษาความลับที่แตกต่างกำลังเป็นที่นิยมมากขึ้นเรื่อย ๆ ในช่วงไม่กี่เดือนที่ผ่านมาแม้แต่ Google ก็ยังยึดถือ เราสามารถพูดคุยกับ Damien Desfontaines ซึ่งเป็นหนึ่งในวิศวกรหลักของ บริษัท ในเรื่องที่จะเข้าใจการปฏิวัติอย่างเงียบ ๆ ที่อยู่เบื้องหลังสาขาไอทีนี้

คำว่า "ชีวิตส่วนตัว" แทบจะไม่คล้องจองกับชื่อของยักษ์ใหญ่ด้านเทคโนโลยีมากมาย ในหมู่พวกเขา Google ซึ่งฐานผลกำไรในการโฆษณาที่กำหนดเป้าหมายและ อย่าลังเลที่จะใช้ประโยชน์จากมัน ข้อมูลผู้ใช้ ทันเวลา ที่ไหนแม้แต่ Facebook ต้องการมุ่งเน้นไปที่การเข้ารหัสไททัน Mountain View เข้าใจว่ามันอยู่ในความสนใจของเขาเพื่อเสริมสร้างดุลยพินิจของเขา

ในช่วงปีที่ผ่านมา บริษัท มีตัวอย่างเช่น โหมด ไม่ระบุนาม บน Google Mapsหรือแม้แต่เสนอ การลบข้อมูลบางอย่างโดยอัตโนมัติ ส่วนบุคคล แต่นอกเหนือจากคุณสมบัติขั้นพื้นฐานเหล่านี้ Google ได้เผยแพร่ส่วนใหญ่ใน โอเพนซอร์ส ห้องสมุดซอฟต์แวร์สองแห่งที่อุทิศให้กับความเป็นส่วนตัว

ห้องสมุดโอเพ่นซอร์ส

มันถูกกล่าวถึงครั้งแรกในเดือนมิถุนายน 2019 ของ เข้าร่วมและคำนวณแบบส่วนตัวโปรโตคอลการเข้ารหัสแบบอิงอนึ่งในเทคนิคของ "การเข้ารหัส homomorphic" ซึ่งช่วยให้การดำเนินการทางคณิตศาสตร์ที่จะดำเนินการกับข้อมูลที่เข้ารหัสของนักแสดงหลายคนโดยไม่ต้องถอดรหัสพวกเขาล่วงหน้า จากนั้นในเดือนกันยายนมันเป็น ห้องสมุดซอฟต์แวร์ส่วนบุคคลที่แตกต่าง (จากชื่อเล็ก ๆ "DP" สำหรับ ความเป็นส่วนตัวที่แตกต่างกัน) ซึ่งได้รับการนำเสนอ: เทคนิคที่ทำให้สามารถปกป้องข้อมูลได้โดยไม่ต้องเข้ารหัส

เพื่อผลิตทั้งหมดนี้ยักษ์ เปิดในเดือนพฤษภาคม 2019 ศูนย์วิศวกรรมความปลอดภัยของ Google (GSEC) ในมิวนิกซึ่งเชี่ยวชาญด้านความเป็นส่วนตัวและปัจจุบันมีวิศวกรและนักวิจัยประมาณ 200 คนในพื้นที่นี้ โดยไม่คำนึงถึงมุมมองของผู้บริหารของ Google เกี่ยวกับการใช้ข้อมูลองค์กรขนาดใหญ่ไม่สามารถเป็นเสาหินและผู้เชี่ยวชาญด้านความเป็นส่วนตัวที่ได้รับการว่าจ้างจะกระตือรือร้นที่จะนำความเชื่อส่วนตัวกลับมา

เราสามารถพบกัน Damien Desfontainesหนึ่งในวิศวกรชั้นนำด้านการรักษาความลับที่แตกต่างกันของ Google และนักศึกษาปริญญาเอกนอกเวลาที่ ETH ซูริคในสวิตเซอร์แลนด์ สวมใส่ผมหางม้าใจกว้าง French Linux และผู้ชื่นชอบซอฟต์แวร์ โอเพนซอร์ส รู้สึกประหลาดใจอย่างมากจากความพยายามรักษาความปลอดภัยของทีม Google

Damien Desfontaines (ขวา) ข้าง Mihaela Ion วิศวกรจากทีม Private & Compute ของ Google

ต้นกำเนิดของปัญหา

แต่ก่อนอื่นให้เราระลึกไว้เสมอว่าความเป็นส่วนตัวที่แตกต่างคืออะไรและทำไมมันถึงจำเป็นในโลกดิจิตอลของเรา เราได้อธิบายไปแล้ว แนวคิดนี้กับปริศนาในช่วงเวลาที่มันเป็นส่วนใหญ่ Apple ที่ทำให้มันเทียม ในฐานะที่เป็นวิศวกรที่ดี Desfontaines มีแนวทางอื่นสำหรับคำถามซึ่งเราได้ติดตามและพัฒนาที่นี่

จนกระทั่งเมื่อเร็ว ๆ นี้เชื่อว่าการลบข้อมูลในฐานข้อมูลนั้นก็เพียงพอแล้วที่จะลบข้อมูลที่ระบุบุคคลในนั้น ("PII" สำหรับ ข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้) ฟังดูเป็นธรรมชาติ แต่ก็ไม่ได้ผลเพราะรายละเอียดปลีกย่อยทั้งหมด

บางคนได้เรียนรู้วิธีนี้ยากเช่น Netflix ในตัวอย่างที่มีชื่อเสียง ที่เราได้นำเสนอไปแล้ว. ในการลงทะเบียนที่ยิ้มน้อยมากคณะกรรมการประกันภัยกลุ่มรัฐแมสซาชูเซตส์ ได้ตัดสินใจในช่วงกลางยุค 1990 เพื่อเผยแพร่ข้อมูลทางการแพทย์ที่ไม่เปิดเผยชื่อของตัวแทนสาธารณะทั้งหมดของรัฐอเมริกันนี้โดยมีวัตถุประสงค์เพื่อช่วยเหลือนักวิจัย

ภาพถ่ายของนักวิทยาศาสตร์คอมพิวเตอร์ Latanya Sweeney
นักวิทยาศาสตร์คอมพิวเตอร์ Latanya Sweeney แห่งฮาร์วาร์ดซึ่งทำงานเกี่ยวกับการไม่เปิดเผยชื่อ

แต่แมสซาชูเซตยังเป็นที่ตั้งของมหาวิทยาลัยฮาร์วาร์ดและเอ็มไอทีที่มีชื่อเสียง (Massachusetts Institute of Technology) นักวิทยาศาสตร์คอมพิวเตอร์ Latanya สวีนีย์ตอนนี้ศาสตราจารย์ Harvard เป็นนักเรียนปริญญาโทที่ MIT เมื่อเธอท้าทายตัวเองเพื่อหาข้อมูลทางการแพทย์ของผู้ว่าการรัฐแมสซาชูเซตส์

เธอจ่ายเงินให้ยี่สิบดอลลาร์เธอได้รายชื่อผู้ว่าการรัฐสำหรับเมืองจากนั้นจึงจับคู่วันเกิดและรหัสไปรษณีย์กับฐานข้อมูล ดังนั้นสวีนีย์จึงได้รับแฟ้มทางการแพทย์ของผู้ว่าการได้อย่างง่ายดายรวมถึงการวินิจฉัยและใบสั่งยาซึ่งเธอส่งไปยังสำนักงานของเจ้าหน้าที่ที่ได้รับการเลือกตั้งอย่างเป็นอันตรายโดยทางไปรษณีย์

แม้จะไม่เปิดเผยชื่อสวีนีย์ก็พบบันทึกทางการแพทย์ของผู้ว่าการได้อย่างง่ายดาย

RFP คืออะไร

เราเข้าใจว่าการล้างข้อมูลที่ระบุตัวตนได้จากฐานข้อมูลนั้นไม่เพียงพอ จะทำอย่างไรแทน Latanya Sweeney และเพื่อนร่วมงานของเธอ Pierangela Samarati มาแก้ปัญหาในปี 1998: le K-ตัวตน. นักวิจัยสองคนจะรวมสายข้อมูลเพื่อให้มีเพียงผลลัพธ์ระดับโลกเท่านั้นที่พบโดยไม่มีการระบุไว้ในรายการ

ในการใช้ตัวอย่างที่แนะนำโดย Desfontaines สมมติว่าเราต้องการเก็บสถิติเกี่ยวกับสัญชาติของผู้เข้าร่วมการประชุม แทนที่จะนับว่า "unetelle, untel และ unetelle เป็นภาษาฝรั่งเศส" เราสามารถพูดว่า "เป็นเวลา 9:53 น. และคนฝรั่งเศส 6 คนได้กลับไปที่สถานที่ประชุมตั้งแต่เช้านี้" คนที่พบฐานข้อมูลจะมี priori ดิ้นรนที่จะรู้ว่าผู้เยี่ยมชมแต่ละคนเป็นชาวฝรั่งเศส

แต่ทว่า k-anonymity ยังคงมีข้อบกพร่องอยู่ สมมติว่าผู้สังเกตการณ์ไม่ระวังจัดการเพื่อดูฐานข้อมูลสัญชาติเวลา 9:52 น. et เวลา 9:53 น. หากบนฐานแรกมี 5 ฝรั่งเศส แต่มี 6 ในสองผู้สังเกตการณ์สามารถมั่นใจได้ว่าหนึ่งในคนที่เข้าร่วมการประชุมระหว่าง 9:52 น. ถึง 9:53 น. เป็นภาษาฝรั่งเศส

การโจมตีที่แตกต่าง

สิ่งนี้เรียกว่า โจมตีโดย differencingที่เราดูความแตกต่างระหว่างชุดข้อมูลสองชุดที่มีสิ่งเดียวกันมากกว่าหรือน้อยกว่า " ในหลอดเลือดดำเดียวกันเราสามารถติดการโจมตีของสแปม “ ชี้ให้เห็นว่า Desfontaines " เราสามารถส่งแบบสำรวจทางอีเมลถึงคุณซึ่งผลลัพธ์จะถูกรวมเป็นกลุ่มของคำตอบ 100 ข้อ แต่หาก 99 คำตอบเหล่านี้สร้างขึ้นโดยบัญชีปลอมเราจะรู้ว่าคุณตอบอะไร »

มีการใช้เทคนิค PD เพื่อป้องกันปัญหานี้ " หลักการของการรักษาความลับที่แตกต่างกันคือการทำให้แน่ใจว่าไม่สำคัญว่าบุคคลใดบุคคลหนึ่งจะอยู่ในฐานข้อมูลหรือไม่: สิ่งนี้จะไม่เปลี่ยนผลลัพธ์สุดท้าย " เห็นได้ชัดว่าข้อมูลของคุณจะถูกเก็บรวบรวมหรือไม่เราจะไม่แจ้งให้ทราบล่วงหน้า

สำหรับสิ่งนี้เราจะเพิ่ม "เสียงรบกวน" ลงในข้อมูลนั่นก็คือการพูดแบบสุ่ม บุคคลแต่ละคนจะถูกปกคลุมด้วยความคลุมเครือ: ถ้าฐานข้อมูลบ่งชี้ว่ามีชาวฝรั่งเศส 6 คนพวกเขาอาจจะแค่ 5 คนเท่านั้นและเราไม่สามารถรู้ได้ว่าบุคคลที่หกมีอยู่จริงหรือไม่ หรือเปล่า เสียงยิ่งมากข้อมูลก็จะแม่นยำน้อยลง แต่ความลับก็จะยิ่งดีขึ้นเท่านั้น

เสียงรบกวนไม่อนุญาตให้เรารู้ด้วยความแตกต่างระหว่างฐาน 1 และฐาน 2 อย่างแน่นอน

จากทฤษฎีสู่การปฏิบัติ

PD มีข้อดีหลายประการ " เรามีการรับประกันอย่างเป็นทางการแม้กับผู้โจมตีที่แข็งแกร่ง »: สัญญาณรบกวนยังคงมีสัญญาณรบกวนไม่สามารถต้านทานความฉลาดของแฮ็กเกอร์ได้ การรับประกันเหล่านี้ไม่ได้ขึ้นอยู่กับ " ความรู้เสริม นั่นคือข้อมูลเพิ่มเติมที่ผู้โจมตีอาจมี ในหลอดเลือดดำเดียวกัน " ข้อมูลสามารถเผยแพร่ได้หลายครั้งติดต่อกัน โดยไม่สูญเสียความลับของพวกเขา

จุดเด่นอีกอย่างหนึ่งของ DP คือความเรียบง่ายทางแนวคิด มันเป็นคำถามหลักที่จะเพิ่มสัญญาณรบกวนให้กับข้อมูลโดยไม่ต้องผ่านการเข้ารหัส เราอยู่ไกลจากโปรโตคอลที่ซับซ้อนของการเข้ารหัสซึ่งอาศัยการคำนวณทางคณิตศาสตร์จำนวนมากเพื่อบรรลุเป้าหมาย ในที่สุดอย่างน้อยก็ในทางทฤษฎี

« ในทางปฏิบัติเราได้รับ très ประหลาดใจที่พบอุปสรรคเช่นเดียวกับในการเข้ารหัส ", Notes Desfontaines, ยกตัวอย่างของโปรโตคอล RSA, สร้างขึ้นในปี 1977 และมีการเปิดใช้งานการเข้ารหัสคีย์สาธารณะ " Cง่ายมาก ไปยังอธิบาย RSA ทำงานอย่างไร ถึงคนที่ทำ นิดหน่อย คณิตศาสตร์ที่มหาวิทยาลัย Mแต่เมื่อคุณต้องการที่จะใช้ โปรโตคอลนี้ ด้วยวิธีที่ปลอดภัยเรามักจะพบปัญหา »

เครดิต: Mika Baumeister // Unsplash

เช่นเดียวกับสูตรการปรุงอาหารที่ไม่เข้าใจว่าทำไมวิศวกร DP จึงต้องเผชิญกับรายละเอียดที่ไม่คาดคิด " ตัวอย่างเช่นจำนวนจุดลอยตัว "เช่น" 1,5 "หรือ" 5,87 " คอมพิวเตอร์มีหน่วยความจำที่ จำกัด และขึ้นอยู่กับว่าเป็น 32 หรือ 64 บิตสามารถจัดการตัวเลขในจำนวนที่ จำกัด หลังจุดทศนิยม

« เมื่อเราเพิ่มเสียงรบกวนเราจะทำอย่างไรกับการสูญเสียความแม่นยำ ตามวิธีการที่ใช้และ "การปัดเศษ" ที่ไปกับมันนักวิทยาศาสตร์คอมพิวเตอร์ตระหนักว่าบิตที่มีนัยสำคัญน้อยที่สุดซึ่งเป็นรหัสที่มีตัวเลขน้อยที่สุดหลังจากจุดทศนิยมมีเบาะแสการทรยศต่อความลับ

ความท้าทายอีกประการหนึ่งเกิดขึ้นในธรรมชาติของสิ่งพิมพ์วิจัยคอมพิวเตอร์ " การวิจัยมักจะพึ่งพาสมมติฐานที่ค่อนข้างง่าย », ให้ความสำคัญกับนามธรรมมากกว่าสู่ความเป็นจริงที่เป็นรูปธรรม " ตัวอย่างเช่นมันจะถือว่าแต่ละคน ไม่มีใครปรากฏเพียงครั้งเดียวในฐานข้อมูล »

"การคนส่วนใหญ่ที่มาหาเราเพียงต้องการผลรวมและฮิสโทแกรมเท่านั้น »

สิ่งนี้เป็นจริงเมื่อพูดถึงข้อมูลทางการแพทย์ซึ่งเป็นพื้นที่ที่ไม่ได้มีแนวโน้มดีสำหรับ PD เพราะความถูกต้องของข้อมูลนั้นมีความสำคัญอย่างแท้จริงสำหรับผู้ป่วย " แต่ทุกครั้งที่คุณใช้ Google Search มันเป็นคำขอที่แตกต่างจากคุณที่เก็บไว้ " เพียงพอที่จะกรองข้อมูลที่มีค่าเมื่อเชื่อมโยงหลายรายการเหล่านี้

การวิจัยชอบ " มุ่งเน้นไปที่ปัญหาที่ซับซ้อนมากในความท้าทายทางวิทยาศาสตร์เพราะจริงๆแล้วมันตลก "Desfontaines ยิ้ม สิ่งที่กระตุ้นให้นักวิจัยไม่จำเป็นต้องเป็นสิ่งที่จำเป็นที่สุด " En จริงคนส่วนใหญ่ที่มาหาเราต้องการทำผลรวมและฮิสโทแกรม "พื้นฐานของสถิติ

ขาดความชำนาญ

แน่นอนว่าการได้รับ PD จากทฤษฎีสู่การปฏิบัติต้องใช้สมองที่มีทักษะ ลูกขุน เดวิดโอไบรอัน เดอฮาร์วาร์ดผู้เชี่ยวชาญเรื่องการรักษาความลับประเมินไว้ก่อนหน้าเราเมื่อปีที่แล้วว่ามีผู้เชี่ยวชาญด้านคอมพิวเตอร์ประมาณห้าสิบคนบนโลกใบนี้ที่มีความเชี่ยวชาญด้าน PD ทุกวัน ซึ่งหมายความว่า บริษัท ใด ๆ ที่ต้องการทำ PD อย่างจริงจังต้องถือหนึ่งในห้าสิบคนนี้ไว้ล่วงหน้า

ร่างที่ไม่แปลกใจเลยว่าดาเมียนเดฟอนเทนเลย " มันเป็นความจริงว่ามีคนไม่กี่คน! การสร้างทีมในมิวนิคช่วย แต่ก็ไม่มีใครทำมาก่อน ฉันต้องใช้เวลา 6 เดือนในการฝึกฝนเพื่อนร่วมงานของฉันs "หรือวิศวกรโหล ความพยายามที่จ่ายออกไปเพราะ " หลายคนมีระดับผู้เชี่ยวชาญแล้ว มันไม่ใช่เรื่องง่าย แต่ก็สนุก »

« ฉันต้องใช้เวลา 6 เดือนในการฝึกฝนเพื่อนร่วมงานของฉัน »

ความเป็นส่วนตัวที่แตกต่างไม่ใช่เรื่องยากที่จะเรียนรู้โดยเฉพาะอย่างยิ่งเนื่องจากความปลอดภัยและการเข้ารหัสได้รับการสอนในโรงเรียนคอมพิวเตอร์มานานแล้ว " Mแต่นี่เป็นพื้นที่ใหม่ ' บทความ ที่นักวิจัย Cynthia Dwork และเพื่อนร่วมงานของเธอเปิดตัวแนวคิดนี้มีมาตั้งแต่ปี 2006

สิ่งที่น่าดึงดูดสำหรับการรักษาความลับในฐานะสาขาเฉพาะนั้นเป็นสิ่งที่ใหม่กว่า " เจ้านายคนแรกในความเป็นส่วนตัว มี เปิดแล้ว ว่าสามหรือสี่ปีก่อน ' ในแผนกไอทีที่มีชื่อเสียง จาก Carnegie Mellon University ในรัฐเพนซิลวาเนีย

การขาดความเชี่ยวชาญนี้เป็นอุปสรรคต่อการดำเนินการของ PD หรือไม่? " แน่นอน! ไม่รวม Desfontaines " เป้าหมายของไลบรารีโอเพ่นซอร์สคือ อย่างเป็นธรรม ท้ายที่สุดให้ผู้เชี่ยวชาญด้านไอทีที่ไม่รู้จัก PD สามารถใช้งานได้ในโปรแกรมของพวกเขา สำหรับตอนนี้เรามุ่งเน้นไปที่ดั้งเดิมแล้วเราหวังว่าจะลดระดับลง »

เผยแพร่ความลับที่แตกต่าง

งั้นเรามาถึงวิธีดั้งเดิมซึ่งก็คือ " เช่นเดียวกับอิฐ Lego เพื่อสร้างอัลกอริทึม มันอาจจะเป็นฟังก์ชั่นในการเพิ่มเสียงรบกวนจากนั้นสิ่งที่เป็นนามธรรมมากขึ้นเช่นองค์ประกอบที่จะรู้ว่าต้องเพิ่มเสียงรบกวนมากน้อยเพียงใดขึ้นอยู่กับบริบทหรือในที่สุดใกล้กับผู้ใช้ ภาษาของแบบสอบถาม การบูรณาการ RFP โดยตรง »

ดังนั้นความสนใจของห้องสมุด โอเพนซอร์ส เพื่อสร้างบล็อคพื้นฐานพื้นฐานเหล่านี้สำหรับทุกคน " มันไร้ประโยชน์ที่แต่ละ บริษัท เทคโนโลยีทำงานในมุมของมัน DP primitives ควรเหมือนการเข้ารหัสแบบดั้งเดิมซึ่งรวบรวมในไลบรารีจำนวนน้อย »

"ไม่มีประโยชน์ที่ทุก บริษัท เทคโนโลยีจะทำงานในมุมของมัน"

วันนี้ RFP ถูกสงวนไว้สำหรับโครงการคอนกรีตสองสามโครงการเท่านั้น Apple ใช้ในผลิตภัณฑ์เพื่อจุดประสงค์ที่หลากหลายเช่นการรวบรวมสถิติ เกี่ยวกับการใช้คีย์บอร์ด iOS และ MacOS. ที่ด้านข้างของ Google อัลกอริทึมการรายงาน ในเบราว์เซอร์ Chrome จะรวบรวมกิจกรรมของผู้ใช้ และที่น่าประหลาดใจมากขึ้น Uber ก็เปิดตัวด้วยเช่นกัน เครื่องมือ โอเพนซอร์ส ในเรื่อง

หนึ่งในแอปพลิเคชั่นที่ใหญ่ที่สุดที่จะมาถึงคือการสำรวจสำมะโนประชากรของชาวอเมริกันในปีหน้า สำมะโนประชากร 2020. " ฉันคุยกับผู้คนจากการสำรวจสำมะโนประชากรคe เป็นผู้เชี่ยวชาญที่ได้รับการว่าจ้างในตอนท้ายของวิทยานิพนธ์ของพวกเขา "Desfontaines กล่าว ความท้าทายทางวิทยาศาสตร์เป็นเรื่องจริงและในครั้งนี้เราหวังว่าจะไม่มีความเชี่ยวชาญ

ใครเป็นใคร

แชร์บนเครือข่ายสังคม

บทความนี้ปรากฏขึ้นก่อน https://www.numerama.com/tech/575861-peut-on-collecter-des-donnees-personnelles-en-protegeant-la-vie-privee-dun-utilisateur.html#utm_medium=distibuted&utm_source=rss&utm_campaign=575861

ความเห็นถูกปิด