حول : سلسلة LevelUp في The Markup، نلتزم ببذل قصارى جهدنا لحماية قرائنا من الأضرار الرقمية، والكتابة عن العمليات التي نطورها، ومشاركة أعمالنا. نعمل باستمرار على تحسين الأمن الرقمي، واحترام خصوصية القراء، وتوفير تجارب مستخدم أخلاقية ومسؤولة، وضمان سهولة الوصول إلى موقعنا وأدواتنا. في "ذا مارك أب"، نجمع باستمرار بين أساليب الصحافة التقليدية وتحليل البيانات، مما يساعدنا على التوصل إلى استنتاجات مبنية على أدلة إحصائية ذات دلالة. لكن العثور على بيانات كافية وجمعها لاستخلاص هذه الاستنتاجات قد يكون تحديًا. وهنا يأتي دور استخلاص البيانات من الإنترنت. استخراج بيانات الويب هو عملية جمع تلقائي لمحتوى إلكتروني مُعدّ لمشاهدته من قِبل المستخدمين، واستخراج معلومات مُحددة منه، ثم تخزين هذه المعلومات في صيغة يُمكن لبرنامج حاسوبي استخدامها بسهولة. على سبيل المثال، يُمكن أن يتم ذلك عن طريق تنزيل صفحة ويب لمحكمة مقاطعة تتضمن الأحكام الأخيرة، وتحويلها إلى سلسلة من ، يحتوي كل منها على اسم القضية، وقائمة المُدّعين، وقائمة المُدّعى عليهم، وتاريخ الحكم، ورابط نصه. جداول البيانات وبما أن عملية الكشط تتم بواسطة جهاز كمبيوتر، فمن الممكن استخدامها لجمع كميات كبيرة من المعلومات، مما يجعلها ، بل وأيضاً بين الأكاديميين والباحثين وجماعات المناصرة. شائعة ليس فقط بين الصحفيين لقد كان الكشط موجودًا منذ فترة طويلة في منطقة رمادية من الناحية القانونية، لذا يميل الصحفيون وغيرهم من الباحثين إلى التعامل معه بحذر. في "ذا مارك أب"، طرح بعض صحفيي البيانات لدينا مؤخرًا أسئلة حول المخاطر القانونية المرتبطة باستخراج البيانات من المواقع الإلكترونية المُستضافة في الاتحاد الأوروبي. أجرينا بحثًا خاصًا للإجابة على هذا السؤال، ونقدم ملخصًا لما تعلمناه أدناه. هدفنا هو مساعدة الصحفيين والباحثين والمدافعين الآخرين على وضع استراتيجية منخفضة المخاطر لاستخراج البيانات من المواقع الإلكترونية في الاتحاد الأوروبي. قبل أن نبدأ، دعونا نلقي نظرة سريعة على عملية استخراج البيانات في الولايات المتحدة: الوضع القانوني لعملية استخراج البيانات في الولايات المتحدة واضح نسبيًا مقارنةً بالاتحاد الأوروبي. لسنوات عديدة، كانت شرعيتها غير مؤكدة، خاصةً عندما كانت تتعارض مع شروط خدمة المواقع الإلكترونية. يبدو أن انتهاك هذه الشروط يُحتمل أن يُشكل انتهاكًا لقانون الاحتيال وإساءة استخدام الحاسوب (CFAA)، وهو قانون لمكافحة القرصنة يُجرّم ليس فقط اختراق جهاز كمبيوتر، بل أيضًا "تجاوز الوصول المُصرّح به" إليه. في أبريل 2022، ، مؤكدةً أنه لا يمكن مقاضاة الأفراد الذين يكتفون باستخراج بيانات مواقع الويب دون التسبب في أي ضرر آخر بموجب القانون. وقد طبقت تلك القضية قرارًا صادرًا عن المحكمة العليا عام 2021 في قضية ، والذي لم يتضمن استخراج بيانات، ولكنه قضى بأن انتهاك شروط الخدمة لا يُعد جريمة بموجب قانون مكافحة الفساد والاحتيال. أوضحت محكمة الاستئناف بالدائرة التاسعة الوضع فان بورين ضد الولايات المتحدة ينبغي أن تكون خطوتك الأولى في وضع استراتيجية لاستخراج البيانات من مواقع الويب في الاتحاد الأوروبي هي التفكير مليًا في البيانات التي تحتاجها لمشروعك. يعتمد الوضع القانوني لاستخراج البيانات في الاتحاد الأوروبي بشكل كبير على طبيعة البيانات التي تجمعها. بشكل عام، يمكنك تصنيف البيانات على الإنترنت إلى فئتين: شخصية وغير شخصية، ولكل منهما قواعد مختلفة. بموجب اللائحة العامة لحماية البيانات (GDPR) في أوروبا، تُعرّف البيانات الشخصية بأنها معلومات تتعلق بشخص طبيعي مُعرَّف (أي إنسان، وليس شركة). تُعتبر الأسماء والصور وأرقام الهوية، مثل رخص القيادة، جميعها بيانات شخصية، وكذلك أنواع البيانات الأقل وضوحًا، مثل معلومات الموقع. أما البيانات غير الشخصية، فهي لا تتعلق بشخص طبيعي مُعرَّف. كما أنها أقل تعقيدًا، لذا سنبدأ بشرح البيانات غير الشخصية أولًا. 1. حقوق الإبداع و"الاستثمار الجوهري" في تحقيقنا الأخير حول تفاوتات الإنترنت، جمعنا كميات كبيرة من في الأحياء الأمريكية. لو جمعنا بدلاً من ذلك بيانات عن أحياء الاتحاد الأوروبي، لكانت تعتبر غير شخصية لأنها لا تتعلق بأي فرد محدد. لذلك، فإن القانون الأكثر صلة مباشرة يسمى ، والذي أقره الاتحاد الأوروبي في عام 1996. يوفر توجيه قاعدة البيانات حماية حقوق الطبع والنشر لقواعد البيانات التي "تشكل الإبداع الفكري للمؤلف". يمكن أن يشمل الإبداع كيفية تنظيم قاعدة البيانات، ونوع الأعمدة التي تحتفظ بها، أو كيفية فهرستها. كما ينشئ التوجيه ما يسمى بالحق (أو الفريد) في قواعد البيانات التي تنطوي على "استثمار كبير إما في الحصول على المحتويات أو التحقق منها أو عرضها"، حتى لو لم يكن هناك أصالة في تلك القاعدة البيانات. يشار أحيانًا إلى حقوق الاستثمار الإبداعي والكبير بشكل جماعي باسم حقوق قاعدة البيانات. اتضح أن هذه الحقوق محدودة للغاية في الواقع عمليًا. من الصعب الإبداع حقًا في تصميم قواعد البيانات، وتضع المحاكم حدًا أقصى مرتفعًا جدًا لـ"الاستثمار الكبير". على سبيل المثال، قضت محكمة العدل التابعة للاتحاد الأوروبي (أو بالأحرى المحكمة العليا) في بأن استخراج البيانات لا يفي بمتطلبات الاستثمار الكبير إلا إذا كان من شأنه أن ينافس، أو يُعرّض، قدرة الموقع الإلكتروني على تحصيل الدخل واسترداد استثماره للخطر. معلومات الأسعار للإنترنت عريض النطاق توجيه قاعدة البيانات الفريد قرار حديث 2. المؤسسات البحثية لديها أذونات خاصة دخل (الذي يختلف عن قانون الخدمات الرقمية وقانون الأسواق الرقمية) حيز التنفيذ في عام 2021 وعدل توجيه قاعدة البيانات. وقد أنشأ ملاذات آمنة لاستخراج النصوص والبيانات من قبل مؤسسات البحث أو "منظمات التراث الثقافي". ويمكن أن تشمل مؤسسة البحث كيانًا يجري بحثًا علميًا "وفقًا لمهمة المصلحة العامة التي تعترف بها دولة عضو". ويجب أن تتمتع مؤسسات البحث ومنظمات التراث الثقافي "بوصول قانوني" إلى البيانات، على سبيل المثال، تدفع المنظمة مقابل اشتراك، أو تكون البيانات متاحة للجمهور على الإنترنت. ومن غير الواضح ما إذا كان الصحفيون مؤهلين هنا، حتى لو كانوا يعملون في منظمة غير ربحية مثل The Markup. قد تكون إحدى الطرق الممكنة لمعالجة هذا الأمر هي الشراكة مع مؤسسة بحثية، مثل بعض الجامعات، حيث يسمح القانون للشراكات بين القطاعين العام والخاص بإجراء أبحاث تتماشى مع أحد . توجيه السوق الرقمية الموحدة برامج إطار عمل الاتحاد الأوروبي للبحث والتطوير التكنولوجي 3. يمكن للشركات الحد من الكشط في شروط الخدمة الخاصة بها النطاق المحدود لتوجيه قاعدة البيانات يعني أن الكثير من بيانات الاتحاد الأوروبي غير محمية بموجب القانون وهي من الناحية النظرية لعبة عادلة للكشط. ومع ذلك، هناك مشكلة. في ، كانت شركة PR Aviation خدمة تجميع رحلات مثل Kayak.com وكانت تقوم بكشط Ryanair لإظهار رحلاتها في نتائج البحث الخاصة بها. رفعت شركة Ryanair دعوى قضائية لوقف هذه الممارسة. قضت المحكمة بأن بيانات Ryanair لم تكن مؤهلة للحماية بموجب حقوق النشر أو الحق ، ولكن يمكن للشركة الحد من الكشط من خلال شروط الخدمة الخاصة بها. بالطبع، كما اكتشفنا أثناء بناء مجموعة بيانات تسعير مزود خدمة الإنترنت (ISP) الخاصة بنا، يمكن لمشغلي مواقع الويب أيضًا استخدام تدابير فنية مثل لمنع الكشط حتى عندما لا يمارسون حقوق قاعدة البيانات القانونية المذكورة أعلاه. شركة Ryanair المحدودة ضد شركة PR Aviation BV الفريد من نوعه تحديد المعدل الحالات التي تُقيّد فيها شروط خدمة المنصة استخراج البيانات هي الأكثر غموضًا من الناحية القانونية. الخبر السار هو أنه في الاتحاد الأوروبي، يُعدّ انتهاك شروط خدمة موقع إلكتروني جريمة، وهو ما كان عليه الحال في الولايات المتحدة حتى المحكمة العليا في قضية عام ٢٠٢١. إذا وُجدت شروط خدمة تحظر استخراج البيانات، فإن التحليل لا ينتهي بـ "لا يُمكنك الذهاب إلى السجن، فلا بأس". يمكن للموقع الإلكتروني رفع دعوى مدنية إما بتهمة الضرر أو الإخلال بالعقد، مع أنه من المرجح أن يواجه صعوبة في إثبات الأضرار في مثل هذه القضايا. لا صدور قرار فان بورين قد يطلبون أيضًا من المحكمة منع عملية استخراج البيانات. هذا ما حدث في قضية رايان إير المذكورة أعلاه. إذا كنت ترغب في استخراج بيانات موقع إلكتروني، وكانت شروط الخدمة الخاصة به تحظر عملية استخراج البيانات دون أي استثناءات، فمن الأفضل استشارة محامٍ حول وضعك الدقيق وتقييم مدى تحملك للمخاطر. 4. لا ترتكب جرائم إلكترونية بالطبع، إذا كان نشاط الكشط الخاص بك يضر بموقع الويب بأي طريقة أخرى، مثل ، فقد تكون مسؤولاً بموجب ، لذا لا تفعل ذلك. زيارته كثيرًا لدرجة أن أداة الكشط الخاصة بك تزيد من تحميل موقع الويب قانون الجرائم الإلكترونية في الاتحاد الأوروبي باختصار، عند استخراج بيانات غير شخصية من مصدر في الاتحاد الأوروبي، قد تُفعّل حماية توجيه قواعد البيانات، ولكن هذه الحماية غالبًا ما تكون محدودة للغاية. في حال عدم تطبيق التوجيه، قد تواجه قيودًا من شروط الخدمة، وأي تقنيات مكافحة استخراج البيانات التي يستخدمونها لتطبيقها. إذا تعاونت مع مؤسسة بحثية، مثل جامعة، فقد تتمكن من التحايل على حقوق قواعد البيانات، مع أن تقنية مكافحة استخراج البيانات قد تُشكّل عائقًا عمليًا. في حال عدم وجود استثناء، قد يكون هناك خطر رفع دعوى مدنية، لذا يُفضّل استشارة محامٍ. جمع البيانات الشخصية: يمكن أن يحول قانون حماية البيانات العامة (GDPR) عملية جمع البيانات إلى مشكلة امتثال كبيرة بالطبع، الغوريلا العملاقة في الغرفة هي اللائحة العامة لحماية البيانات (GDPR). قانون حماية البيانات التاريخي للاتحاد الأوروبي لا يُطبّق على كشط البيانات من الويب إلا إذا كنتَ تستخرج بياناتك . للتوضيح، تُعرّف اللائحة العامة لحماية على النحو التالي: الشخصية البيانات البيانات الشخصية أي معلومات تتعلق بشخص طبيعي محدد أو قابل للتحديد ("موضوع البيانات")؛ الشخص الطبيعي القابل للتحديد هو الشخص الذي يمكن تحديده، بشكل مباشر أو غير مباشر، وخاصة عن طريق الإشارة إلى معرف مثل الاسم أو رقم التعريف أو بيانات الموقع أو معرف عبر الإنترنت أو إلى عامل أو أكثر خاص بالهوية الجسدية أو الفسيولوجية أو الجينية أو العقلية أو الاقتصادية أو الثقافية أو الاجتماعية لهذا الشخص الطبيعي. هناك ضمانات إضافية لـ" " من البيانات الشخصية، بما في ذلك العرق والدين والتوجه الجنسي، والتي يعتبرها النظام العام لحماية البيانات (GDPR) حساسة للغاية. البيانات ذات الهوية المستعارة، وهي معلومات جُرِّدت من بعض مُعرِّفاتها، لا تزال تُعتبر مُعرِّفة للهوية وبالتالي شخصية، بينما البيانات مجهولة المصدر لا تُعتبر كذلك لأنها لا تُحدِّد هوية الفرد. مع ذلك، يجب توخي الحذر للتأكد من أن البيانات لأن البيانات التي تم إخفاء هويتها بشكل سيء قد لا تُؤهِّل هذا الاستثناء. فئات خاصة مجهولة المصدر تمامًا، لنفترض أنك بحاجة إلى استخراج بعض البيانات، وأنها تحتوي على بيانات شخصية - على سبيل المثال، أنت تُجري تحقيقًا في قوائم الإيجار التي تتضمن أحيانًا أسماء ومعلومات الاتصال الخاصة بمُلّاك أو مديري العقارات. في هذه الحالة، ستكون بمثابة "جهة مُتحكمة بالبيانات"، وستُطبق أحكام اللائحة العامة لحماية البيانات (GDPR) التي تُنظّم جمع البيانات ومعالجتها على البيانات الشخصية. أولًا، ستحتاج إلى تبرير جمع البيانات كأحد المُحددة في اللائحة العامة لحماية البيانات. كصحفي أو باحث، قد تعتقد أن الدفاع عن "المصلحة العامة" سيكون مُجديًا، لكن هذا الحكم مُخصص بشكل أساسي للجهات الحكومية أو المؤسسات الخاصة التي تُطبّق قوانين الدولة العضو. الأسس القانونية الستة الخيار الأمثل هو جمع البيانات وتحليلها بناءً على "مصلحتك المشروعة"، ولكن حتى هذه الصلاحية ليست ضمانًا كافيًا لجمع جميع البيانات الشخصية. من المرجح أن تُعتبر الأبحاث الصحفية أو المناصرة غير الربحية مصلحة مشروعة، ولكن يجب موازنة ذلك بالحقوق الأساسية للبيانات الخاضعة للخصوصية وحماية البيانات. لن يكون استخراج البيانات الشخصية قانونيًا إلا عندما تتفوق مصالح مراقب البيانات (أنت في هذه الحالة) على مصالح صاحب البيانات. يجب إجراء التحليل بعناية وتوثيقه رسميًا، لذا يُفضل استشارة خبير قبل المضي قدمًا في هذا المسار. بمجرد البدء بجمع البيانات الشخصية، يجب عليك الالتزام بمبادئ ، بما في ذلك تقليل البيانات، والاحتفاظ بها بشكل معقول، . بصفتك مسؤولاً عن البيانات، ستتحمل معينة لتخزين البيانات ومعالجتها، والتزامات أكبر في حال نقلها إلى جهات خارجية. ستحتاج أيضًا إلى إبلاغ أصحاب البيانات بأنك تعالج بياناتهم من خلال إشعار الخصوصية، ومنحهم حقوقًا معينة مثل حق المحو أو الاعتراض على المعالجة. وأخيرًا، قد تحتاج إلى إجراء (DPIA) إذا كانت المعالجة تنطوي على "مخاطر عالية" على صاحب البيانات. يمكن أن يساعد استخدام تقنيات مثل في تلبية متطلبات الامتثال الخاصة بك. اللائحة العامة لحماية البيانات (GDPR) لمعالجة البيانات والأمان التزامات امتثال تقييم لتأثير حماية البيانات إخفاء الهوية النظام العام لحماية البيانات (GDPR) كل دولة عضو بتطبيق قوانين تُوفق بين الحق في الخصوصية وحرية التعبير ومعالجة البيانات للأغراض الصحفية. تختلف هذه اختلافًا كبيرًا، وغالبًا ما تكون الإرشادات المتعلقة بكيفية استخدامها أقل. كما قد يكون من الصعب تحديد قوانين الدولة المنطبقة عند النظر في مكان إنشاء الموقع الإلكتروني، وموقع الخوادم، وجنسية أصحاب البيانات. يُنصح باستشارة محامٍ إذا كنت تعتقد أن هذا الاستثناء ينطبق عليك. يُلزم القوانين الوطنية إذا بدا كل هذا كثيرًا، فهذا جيد لأنه من المفترض أن يكون كذلك! يُنشئ النظام العام لحماية البيانات (GDPR) إطارًا قويًا لحماية المعلومات الشخصية، لذا يجب عليك جمع هذه البيانات فقط عند الحاجة إليها. بالعودة إلى مثالنا على قائمة الإيجار، فكّر فيما إذا كان من الضروري جمع الأسماء ومعلومات الاتصال، وإذا جمعت بيانات شخصية بالصدفة، فحاول حذفها في أسرع وقت ممكن. في عام ٢٠٢٢، أصدر الاتحاد الأوروبي ، والذي سيدخل حيز التنفيذ في سبتمبر ٢٠٢٣. يهدف هذا القانون إلى إتاحة البيانات الحكومية، وذلك بشكل رئيسي من خلال إنشاء " " ومنع اتفاقيات مشاركة البيانات الحصرية التي تشمل الحكومة. يبدو أنه نسخة أكثر تطورًا من قوانين البيانات المفتوحة التي أقرتها بعض الولايات والمناطق في الولايات المتحدة. ونظرًا لحداثة هذا القانون، لم يتضح بعد كيف سيؤثر على استخلاص البيانات من الويب، ولكن إذا كنت تنوي استخلاص بيانات من مصدر حكومي، فمن الجيد أن تضع هذا التطور في اعتبارك. قانون حوكمة البيانات وسطاء بيانات كما ينظر برلمان الاتحاد الأوروبي حاليًا في مقترحات ، لذا من الممكن أن يتغير القانون في السنوات القليلة القادمة. من شأن بعض الصياغة في قانون البيانات المقترح تعديل الحق ، ولكن التفاصيل لا تزال قيد المناقشة. ومع ذلك، في الوضع الحالي، فإن استخراج البيانات التجارية العامة التي لا تخضع لقوانين حقوق النشر أو الخصوصية أمر قانوني في الاتحاد الأوروبي. وأخيرًا، يتضمن توجيه السوق الرقمية الموحدة الذي ناقشناه أعلاه بندًا يشير إلى أنه حتى شروط الخدمة قد لا تمنع الباحثين تمامًا من استخراج البيانات، ولكن نطاقه غير واضح ومن المرجح أن يحتاج إلى اختبار في المحكمة. لقانون البيانات ولائحة جديدة للخصوصية الإلكترونية الفريد نحن نعلم. إنه أمر معقد الوضع القانوني لاستخراج بيانات الإنترنت في الاتحاد الأوروبي موضوعٌ معقدٌ ودقيقٌ بشكلٍ مدهش. معظم الموارد الثانوية وجزءٌ كبيرٌ من السوابق القضائية المعمول بها تستهدف الشركات التي تستخرج بيانات الإنترنت لخدمة مصالحها التجارية. من المرجح أن تكون لهذه الشركات مواردٌ ومستوياتٌ مختلفةٌ من تحمّل المخاطر مقارنةً بمعظم الصحفيين أو الباحثين أو المدافعين عن حقوق الإنسان. إذا كنت صحفيًا أو باحثًا يبحث في مجال كشط الويب في الاتحاد الأوروبي، فتذكر ما يلي: من المرجح أن تشكل شروط الخدمة العائق الأكبر أمام جمع البيانات غير الشخصية. إذا كان لزاما عليك جمع البيانات الشخصية، قم بتقليلها والتخلص منها قدر الإمكان. نفترض أيضًا أن زملاءنا الصحفيين والباحثين مهتمون أكثر بالبيانات المحمية بموجب توجيه قواعد البيانات أو اللائحة العامة لحماية البيانات، بدلًا من النصوص المحمية بحقوق الطبع والنشر. تستهلك شركات مثل OpenAI كميات هائلة من النصوص لتغذية نماذج التعلم الآلي الخاصة بها، مما يضع الكثير من القوانين القائمة تحت . الاختبار نأمل أن تكون هذه النظرة العامة على قانون كشط البيانات في الاتحاد الأوروبي مفيدة لصحفيي البيانات وغيرهم من الباحثين الذين يسعون لجمع معلومات للمصلحة العامة. استخدموها لفهم الإمكانيات المتاحة في هذا المجال - ولكن استشيروا محاميًا إذا كنتم بحاجة إلى إرشادات بخصوص وضعكم الخاص - لأن هذا لا يُعدّ نصيحة قانونية. تحديث 24 أغسطس 2023 تم تحديث هذه القصة بمعلومات حول القوانين الوطنية المتعلقة بمعالجة البيانات الشخصية للأغراض الصحفية. الاعتمادات جيسي وو توضيح غابرييل هونغسدوسيت رامزي إيسلر ارتباط ماريا بويرتاس تحرير وإنتاج النسخ سابرينا توبا المراجعة الفنية رامزي إيسلر التحرير ريان تيت سيسي وي نُشرت أيضًا هنا صورة فوتوغرافية بواسطة على Krakograff Textures Unsplash