مجموعات البيانات المفتوحة المجانية للتعلم الآلي وعلوم البيانات | نحو الذكاء الاصطناعى

أفضل مجموعات البيانات العامة للتعلم الآلي وعلوم البيانات

ما هي أفضل مجموعات البيانات للتعلم الآلي؟ بعد إلغاء ساعات الويب بعد ساعات ، قمنا بإنشاء ورقة غش رائعة لمجموعات بيانات التعلم الآلي عالية الجودة والمتنوعة.

المؤلفون:

ستايسي ستانفورد ، مذكرات التعلم الآلي

روبرتو إريوندو ، قسم التعلم الآلي ، جامعة كارنيجي ميلون.

نشرت:

2 أكتوبر 2018

آخر تحديث:

15 مايو 2019

بعض الأشياء التي يجب وضعها في الاعتبار عند البحث عن مجموعات بيانات عالية الجودة:

1.- يجب ألا تكون مجموعة البيانات عالية الجودة فوضوية ، لأنك لا تريد قضاء الكثير من الوقت في تنظيف البيانات.

2.- يجب ألا تحتوي مجموعة البيانات عالية الجودة على عدد كبير جدًا من الصفوف أو الأعمدة ، لذلك من السهل التعامل معها.

3.- كلما كانت البيانات أنظف ، كان تنظيف مجموعة البيانات الكبيرة أمرًا مستهلكًا للوقت بشكل لا يصدق.

4.- يجب أن يكون لدى هدفك النهائي سؤال / قرار للإجابة عليه ، والذي بدوره يمكن الإجابة عليه بالبيانات.

مكتشفو مجموعة البيانات

بحث Google Dataset: على غرار طريقة عمل الباحث العلمي من Google ، يتيح لك البحث Dataset البحث عن مجموعات البيانات أينما استضافت ، سواء كان موقعًا للناشر أو مكتبة رقمية أو صفحة ويب شخصية للمؤلف.

Kaggle: موقع لعلوم البيانات يحتوي على مجموعة متنوعة من المصادر الخارجية المساهمة في مجموعات البيانات المثيرة للاهتمام. يمكنك العثور على جميع أنواع مجموعات البيانات المتخصصة في قائمتها الرئيسية ، بدءًا من تصنيفات Ramen وحتى بيانات كرة السلة وحتى تراخيص سياتل للحيوانات الأليفة.

مستودع UCI للتعلم الآلي: أحد أقدم مصادر مجموعات البيانات على الويب ، وهو نقطة توقف رائعة عند البحث عن مجموعات البيانات المثيرة للاهتمام. على الرغم من أن مجموعات البيانات يساهم بها المستخدم ، وبالتالي لديها مستويات مختلفة من النظافة ، فإن الغالبية العظمى نظيفة. يمكنك تنزيل البيانات مباشرة من مستودع UCI Machine Learning ، دون تسجيل.

VisualData: اكتشاف مجموعات بيانات رؤية الكمبيوتر حسب الفئة ، فهو يتيح استعلامات قابلة للبحث.

البحث عن مجموعات البيانات | مكتبات CMU: اكتشف مجموعات البيانات عالية الجودة بفضل مجموعة Huajin Wang ، CMU.

مجموعات البيانات العامة

مجموعات بيانات الحكومة العامة

Data.gov: يتيح هذا الموقع تنزيل البيانات من وكالات حكومية أمريكية متعددة. يمكن أن تتراوح البيانات من الميزانيات الحكومية إلى نتائج الأداء المدرسي. كن حذرًا على الرغم من أن الكثير من البيانات يتطلب إجراء أبحاث إضافية.

أطلس بيئة الغذاء: يحتوي على بيانات حول كيفية تأثير خيارات الأغذية المحلية على النظام الغذائي في الولايات المتحدة.

تمويل النظام المدرسي: دراسة استقصائية عن تمويل النظم المدرسية في الولايات المتحدة.

بيانات الأمراض المزمنة: بيانات عن مؤشرات الأمراض المزمنة في مناطق في جميع أنحاء الولايات المتحدة.

المركز الوطني الأمريكي لإحصاءات التعليم: بيانات عن المؤسسات التعليمية والديموغرافيا التعليمية من الولايات المتحدة وحول العالم.

خدمة البيانات في المملكة المتحدة: أكبر مجموعة في المملكة المتحدة من البيانات الاجتماعية والاقتصادية والسكانية.

بيانات الولايات المتحدة الأمريكية: تصور شامل للبيانات العامة الأمريكية.

مجموعات بيانات الإسكان

مجموعة بيانات بوسطن للإسكان: تحتوي على معلومات تم جمعها من قبل دائرة الإحصاء الأمريكية بشأن الإسكان في منطقة بوسطن ماساشوستس ، وقد تم الحصول عليها من أرشيف ستاتليب وتم استخدامها على نطاق واسع في جميع أنحاء الأدبيات لقياس الخوارزميات.

مجموعات البيانات الجغرافية

Google-Landmarks-v2: مجموعة بيانات محسنة للتعرف على المعالم واسترجاعها. تحتوي مجموعة البيانات هذه على 5M + صور لمعالم 200k + من جميع أنحاء العالم ، تم الحصول عليها من مجتمع Wiki Commons وتعليقها.

مجموعات البيانات المالية والاقتصادية

Quandl: مصدر جيد للبيانات الاقتصادية والمالية - مفيد لبناء نماذج للتنبؤ بالمؤشرات الاقتصادية أو أسعار الأسهم.

البيانات المفتوحة للبنك الدولي: مجموعات بيانات تغطي التركيبة السكانية وعدد كبير من المؤشرات الاقتصادية والتنموية من جميع أنحاء العالم.

بيانات صندوق النقد الدولي: ينشر صندوق النقد الدولي بيانات عن المالية الدولية وأسعار الدين واحتياطيات النقد الأجنبي وأسعار السلع والاستثمارات.

Financial Times Market Data: أحدث المعلومات عن الأسواق المالية من جميع أنحاء العالم ، بما في ذلك مؤشرات أسعار الأسهم والسلع والعملات الأجنبية.

اتجاهات Google: فحص وتحليل البيانات المتعلقة بنشاط البحث على الإنترنت والتوجه إلى الأخبار في جميع أنحاء العالم.

الرابطة الاقتصادية الأمريكية (AEA): مصدر جيد للعثور على بيانات الاقتصاد الكلي في الولايات المتحدة.

مجموعات بيانات التعلم الآلي:

مجموعات بيانات التصوير

xView: يعد xView واحدًا من أكبر مجموعات البيانات المتاحة للصور العامة. أنه يحتوي على صور من مشاهد معقدة في جميع أنحاء العالم ، مشروح باستخدام مربعات محيط.

Labelme: مجموعة بيانات كبيرة من الصور المشروحة.

ImageNet: مجموعة بيانات الصور الفعلية للخوارزميات الجديدة ، المنظمة وفقًا لتسلسل هرمي WordNet ، حيث تصور مئات وآلاف الصور كل عقدة من التسلسل الهرمي.

LSUN: فهم المشهد مع العديد من المهام الإضافية (تقدير تخطيط الغرفة ، التنبؤ بالأهمية ، إلخ.)

MS COCO: فهم الصورة العامة والتعليق عليها.

COIL100: 100 جسم مختلف تم تصويره في كل زاوية في دوران 360

الجينوم المرئي: قاعدة معرفة بصرية مفصلة للغاية مع شرح لصور 100K ~.

صور Google المفتوحة: مجموعة مكونة من 9 ملايين عنوان URL للصور "التي تم تعليقها باستخدام تسميات تمتد لأكثر من 6000 فئة" ضمن المشاع الإبداعي.

الوجوه المسمى في البرية: 13000 صورة تحمل علامات الوجوه البشرية ، لاستخدامها في تطوير التطبيقات التي تتضمن التعرف على الوجه.

مجموعة بيانات Stanford Dogs: تحتوي على 20،580 صورة و 120 فئة مختلفة من سلالات الكلاب.

التعرف على المشهد الداخلي: مجموعة بيانات محددة للغاية ومفيدة للغاية ، حيث أن معظم نماذج التعرف على المشهد أفضل "من الخارج". يحتوي على 67 فئة داخلية و 15620 صورة.

تحليل بيانات المشاعر

مجموعة بيانات تحليل المعنويات المتعددة: مجموعة بيانات أقدم قليلاً تتميز بمراجعات المنتج من Amazon.

مراجعات IMDB: تحتوي مجموعة البيانات الأقدم والصغيرة نسبيًا لتصنيف المشاعر الثنائية على 25000 مراجعة للأفلام.

Stanford Sentiment Treebank: مجموعة بيانات المشاعر القياسية مع التعليقات التوضيحية.

Sentiment140: مجموعة بيانات شائعة ، والتي تستخدم 160،000 تغريدة مع رموز تعبيرية تمت إزالتها مسبقًا.

Twitter US Airline Sentiment: بيانات Twitter الخاصة بشركات الطيران الأمريكية اعتبارًا من فبراير 2015 ، والتي تم تصنيفها على أنها تغريدات إيجابية وسلبية ومحايدة

مجموعات معالجة اللغات الطبيعية

HotspotQA Dataset: مجموعة من الأسئلة للإجابة على الأسئلة التي تتضمن أسئلة طبيعية متعددة القفزات ، مع إشراف قوي على دعم الحقائق لتمكين أنظمة أكثر إجابة عن الأسئلة.

مجموعة بيانات Enron: بيانات البريد الإلكتروني من الإدارة العليا لـ Enron ، والتي تم تنظيمها في مجلدات.

مراجعات أمازون: تحتوي على حوالي 35 مليون مراجعة من أمازون تمتد 18 عامًا. تشمل البيانات معلومات المنتج والمستخدم ، والتقييمات ، ومراجعة النص العادي.

كتب Google Ngrams: مجموعة من الكلمات من كتب Google.

Blogger Corpus: مجموعة من 681،288 مشاركة مدون تم جمعها من blogger.com. تحتوي كل مدونة على 200 حالة على الأقل من الكلمات الإنجليزية الشائعة الاستخدام.

بيانات وصلات ويكيبيديا: النص الكامل للويكيبيديا. تحتوي مجموعة البيانات على ما يقرب من 1.9 مليار كلمة من أكثر من 4 ملايين مقال. يمكنك البحث عن طريق كلمة أو عبارة أو جزء من الفقرة نفسها.

قائمة الكتب الإلكترونية في غوتنبرغ: قائمة مشروحة من الكتب الإلكترونية من مشروع غوتنبرغ.

قطع نص هانساردز للبرلمان الكندي: 1.3 مليون زوج من النصوص من سجلات البرلمان الكندي السادس والثلاثين.

Jeopardy: أرشفة أكثر من 200،000 سؤال من مسابقة تظهر Jeopardy.

مراجعات الطماطم الفاسدة: أرشيف أكثر من 480،000 مراجعات الناقد (جديدة أو فاسدة).

مجموعة الرسائل غير المرغوب فيها SMS باللغة الإنجليزية: مجموعة بيانات تتكون من 5،574 رسالة بريد إلكتروني غير مرغوب فيه SMS

Yelp Reviews: تحتوي مجموعة البيانات المفتوحة الصادرة عن Yelp على أكثر من 5 ملايين تقييم.

Spambase UCI: مجموعة كبيرة من البريد الإلكتروني العشوائي ، مفيدة لتصفية البريد العشوائي.

مجموعات بيانات القيادة الذاتية (القيادة الذاتية)

بيركلي ديب درايف BDD100k: حاليا أكبر مجموعة بيانات لمنظمة العفو الدولية ذاتية القيادة. يحتوي على أكثر من 100000 مقطع فيديو من تجارب القيادة لأكثر من 1100 ساعة في أوقات مختلفة من اليوم والظروف الجوية. الصور المشروحة تأتي من مناطق نيويورك وسان فرانسيسكو.

بايدو Apolloscapes: مجموعة بيانات كبيرة تحدد 26 عنصرًا دلاليًا مختلفًا مثل السيارات والدراجات والمشاة والمباني وأضواء الشوارع ، إلخ.

Comma.ai: أكثر من 7 ساعات من القيادة على الطرق السريعة. تتضمن التفاصيل سرعة السيارة وتسارعها وزاوية التوجيه وإحداثيات GPS.

سيارة روبوت أكسفورد: أكثر من 100 تكرار من نفس الطريق عبر أكسفورد بالمملكة المتحدة ، تم التقاطها على مدار عام. تلتقط مجموعة البيانات مجموعات مختلفة من الطقس ، وحركة المرور ، والمشاة ، إلى جانب تغييرات طويلة الأجل مثل البناء وأعمال الطرق.

Cityscape Dataset: مجموعة بيانات كبيرة تسجل مشاهد الشوارع الحضرية في 50 مدينة مختلفة.

مجموعة بيانات CSSAD: مجموعة البيانات هذه مفيدة في إدراك المركبات ذاتية الحركة والتنقل فيها. تتنقل مجموعة البيانات بشدة على الطرق الموجودة في العالم المتقدم.

KUL Belgium Traffic Sign Dataset: أكثر من 10000 تعليق توضيحي لإشارات المرور من الآلاف من علامات المرور المميزة جسديًا في منطقة Flanders في بلجيكا.

معهد ماساتشوستس للتكنولوجيا العمر: مختبر عينة من 1000 + ساعات من مجموعات القيادة متعددة الاستشعار التي تم جمعها في AgeLab.

LISA: معمل السيارات الذكية والآمنة ، مجموعات بيانات UC San Diego: تتضمن مجموعة البيانات هذه إشارات المرور ، واكتشاف المركبات ، وإشارات المرور ، وأنماط المسارات.

مجموعة بيانات إشارة المرور الصغيرة من بوش: مجموعة بيانات لإشارات المرور الصغيرة للتعلم العميق.

التعرف على إشارة المرور لارا: مجموعة بيانات أخرى لإشارات المرور. يؤخذ هذا في باريس.

مجموعات بيانات WPI: مجموعات بيانات إشارات المرور وكشف المشاة والحارات.

مجموعات البيانات السريرية

MIMIC-III: مجموعة البيانات المتاحة بشكل مفتوح التي طورها معهد ماساتشوستس للتكنولوجيا مختبر علم وظائف الأعضاء الحسابي ، والتي تشمل البيانات الصحية التي تم تحديدها المرتبطة ~ 40000 مريض الرعاية الحرجة. ويشمل التركيبة السكانية والعلامات الحيوية والاختبارات المعملية والأدوية وغيرها.

ملحوظة:

إذا كنت على دراية بمجموعات البيانات العامة الأخرى عالية الجودة ، والتي توصي بها الأشخاص للبحث وتطبيق التعلم الآلي ، والتعلم العميق ، وعلوم البيانات ، وما إلى ذلك. فلا تتردد في اقتراحها مع الأسباب ، والسبب وراء إدراجها. في التعليقات أدناه أو عن طريق البريد الإلكتروني ستايسي مباشرة في sstanford@mlmemoirs.xyz.

إذا كان السبب قويًا ، فسنقوم بتحليلها وإدراجها في هذه القائمة. أيضًا ، يُرجى إعلامنا بتجربتك في استخدام أي من مجموعات البيانات هذه في قسم التعليقات.

تعلم الآلة السعيدة!

شكر وتقدير:

يود المؤلفون أن يشكروا أعضاء مجتمع الذكاء الاصطناعي على الدعم الهائل ، إلى جانب النقد البناء في إعداد هذا المقال.

إخلاء المسئولية: الآراء المعبر عنها في هذه المقالة هي آراء المؤلف (المؤلفين) ولا تمثل وجهات نظر جامعة كارنيجي ميلون أو Machine Learning Memoirs Inc. أو الشركات الأخرى (بشكل مباشر أو غير مباشر) المرتبطة بالمؤلف (المؤلفين). لا يُقصد بهذه الكتابات أن تكون نتاجًا نهائيًا ، بل إنها تعكس التفكير الحالي ، إلى جانب كونها حافزًا للمناقشة والتحسين.

القصص الموصى بها:

مصادر:

[1] https://cloud.google.com/public-datasets/

[2] https://guides.library.cmu.edu/c.php؟g=844845&p=6191907

[3] https://www.forbes.com/sites/bernardmarr/2018/02/26/big-data-and-ai-30-amazing-and-free-public-data-sources-for-2018/# f3bdeb5f8aec

[4] https://github.com/takeitallsource/awesome-autonomous-vehicles#datasets

[5] https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2

[6] https://www.dataquest.io/blog/free-datasets-for-projects/

[7] https://gengo.ai/datasets/the-best-25-datasets-for-natural-language-processing/

[8] https://github.com/awesomedata/awesome-public-datasets#machinelearning

[9] http://lib.stat.cmu.edu/datasets/

[10] البحث والتحليل المؤسسي | مجموعات البيانات الشائعة | https://www.cmu.edu/ira/CDS/index.html

[11] مجموعات البيانات واقتراحات المشروعات | أندرو دبليو مور | http://www.cs.cmu.edu/~awm/15781/project/data.html

[12] مجموعات البيانات | مستودع التعلم الآلي | معهد ماساتشوستس للتكنولوجيا | https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/datasets/

[13] مجموعات البيانات | معهد ماساتشوستس للتكنولوجيا لينكولن مختبر | https://www.ll.mit.edu/r-d/datasets

[14] مجموعة بيانات شبكة ستانفورد الكبيرة | جامعة ستانفورد | https://snap.stanford.edu/data/

[15] مجموعة بيانات ستانفورد المشتركة | جامعة ستانفورد | https://snap.stanford.edu/data/

[16] دطلاب | جامعة كاليفورنيا بيركلي | http://www.lib.berkeley.edu/libraries/data-lab

[17] استكشاف مجموعات البيانات | علوم البيانات في بيركلي | https://datascience.berkeley.edu/open-data-sets/

[18] DeepDrive | جامعة كاليفورنيا بيركلي | https://bdd-data.berkeley.edu/

الاقتباس:

للإسناد في السياقات الأكاديمية ، يرجى ذكر هذا العمل باسم

ستانفورد وآخرون ، "أفضل مجموعات البيانات العامة للتعلم الآلي وعلوم البيانات" ، نحو AI ، 2018

استشهاد BibTex:

misc {stanford_2018،
  title = {أفضل مجموعات البيانات العامة للتعلم الآلي وعلوم البيانات} ،
  URL = {https://towardsai.net/datasets}،
  ملاحظة = {https://towardsai.net/datasets}،
  مجلة = {} المتوسطة،
  الناشر = {Towards AI} ،
  المؤلف = {ستانفورد ، ستايسي وإيريوندو ، روبرتو} ،
  السنة = {2018}،
  الشهر = {أكتوبر}
}