إذا كنت مطورًا ينتقل إلى علم البيانات ، فإليك أفضل مواردك

يبدو أن الجميع يريدون أن يصبحوا عالِم بيانات هذه الأيام - بدءًا من طلاب الدكتوراه إلى محللي البيانات إلى زميلك القديم في الكلية الذي يحتفظ بـ Linkedin في مراسلاتك إلى "تناول القهوة".

ربما كان لديك نفس الأحبار التي يجب عليك على الأقل استكشاف بعض المواقف المتعلقة بعلوم البيانات ومعرفة ماذا عن الضجيج. ربما كنت قد رأيت مقالات مثل علم بيانات Vicki Boykis 'مختلفة الآن بعد أن تنص على:

ما أصبح واضحًا هو أنه في المرحلة المتأخرة من دورة الضجيج ، يقترب علم البيانات من الهندسة بطريقة غير متقاربة ، والمهارات التي يحتاج إليها علماء البيانات للمضي قدمًا هي التصور المرتكز إلى الإحصائيات ، وتتوافق أكثر مع علوم الكمبيوتر التقليدية ...:
وجدت مفاهيم مثل اختبار الوحدة والتكامل المستمر طريقها إلى المصطلحات ومجموعة الأدوات التي يشيع استخدامها من قبل عالم البيانات والعالم العددي العامل في هندسة ML.

أو تغريدات مثل تيم هوبر:

الأمر غير الواضح هو كيف يمكنك الاستفادة من تجربتك كمهندس برمجيات في منصب علم البيانات. بعض الأسئلة الأخرى التي قد تكون لديكم هي:

ما الذي يجب علي إعطاء الأولوية للتعليم؟

هل هناك أفضل الممارسات أو الأدوات التي تختلف لعلماء البيانات؟

هل ستنقل مجموعة مهاراتي الحالية إلى دور علم البيانات؟

ستوفر هذه المقالة خلفية حول دور عالم البيانات ولماذا قد تكون خلفيتك مناسبة جيدًا لعلوم البيانات ، بالإضافة إلى الإجراءات التدريجية الملموسة التي يمكنك ، كمطور ، اتخاذها لتكثيف علوم البيانات.

تريد أن ترى أحدث أدوار علم البيانات؟ اشترك في النشرة الإخبارية ML Jobs التي تصدر كل أسبوعين للحصول على فرص عمل جديدة لعلم البيانات في صندوق الوارد الخاص بك.

عالم البيانات مقابل مهندس البيانات

أول الأشياء أولاً ، يجب أن نميز بين اثنين من الأدوار التكميلية: عالم البيانات مقابل مهندس البيانات. في حين يتعامل كل من هذين الأدوار مع نماذج التعلم الآلي ، فإن تفاعلهم مع هذه النماذج وكذلك متطلبات وطبيعة العمل لعلماء البيانات ومهندسي البيانات يختلف اختلافًا كبيرًا.

ملاحظة: يمكن أن يتجلى دور مهندس البيانات المتخصص في تعلم الآلة في توصيف الوظائف على أنه "مهندس برمجيات ، أو تعلم الآلة" أو "مهندسو التعلم الآلي".

كجزء من سير عمل التعلم الآلي ، سيقوم عالم البيانات بإجراء التحليل الإحصائي المطلوب لتحديد منهج التعلم الآلي المستخدَم ، ثم يبدأ في وضع النماذج الأولية وبناء تلك النماذج.

سيتعاون مهندسو التعلم الآلي غالبًا مع علماء البيانات قبل وبعد عملية النمذجة هذه: (1) إنشاء خطوط أنابيب البيانات لتغذية البيانات في هذه النماذج و (2) تصميم نظام هندسي يخدم هذه النماذج لضمان استمرار صحة النموذج.

الرسم البياني أدناه هو إحدى طرق عرض سلسلة المهارات هذه:

هناك الكثير من الموارد عبر الإنترنت حول الفرق بين علماء البيانات ومهندسي البيانات - تأكد من إطلاعك على:

  • Panoply: ما هو الفرق بين مهندس البيانات وعالم البيانات؟
  • نقطة انطلاق: مهندس تعلم الآلة مقابل عالم البيانات
  • أورايلي: مهندسو البيانات مقابل علماء البيانات

كإخلاء ، تغطي هذه المقالة في المقام الأول دور "عالم البيانات" مع إيماءة نحو الجانب "هندسة تعلم الآلة" (لا سيما ذات الصلة إذا كنت تبحث عن منصب في شركة أصغر حيث قد تضطر إلى العمل ككليهما). إذا كنت مهتمًا بمعرفة كيف يمكنك الانتقال إلى كونك مهندس بيانات أو مهندس تعلم الآلة ، فأخبرنا في التعليقات أدناه!

صالحك كمطور

على حساب الجميع ، لا تغطي الدروس حول التعلم الآلي مثل "مقدمة في علم البيانات في Python" أو دورة Andrew Ng’s Coursera المفاهيم وأفضل الممارسات من هندسة البرمجيات مثل اختبار الوحدة ، أو كتابة التعليمات البرمجية القابلة لإعادة الاستخدام ، أو CI / CD ، أو التحكم في الإصدار. حتى بعض فرق التعلم الآلي الأكثر تقدماً لا تزال لا تستخدم هذه الممارسات لرمز التعلم الآلي ، مما يؤدي إلى اتجاه مزعج ...

وصف بيت واردن هذا الاتجاه بأنه "أزمة استنساخ التعلم الآلي":

لا نزال في العصور المظلمة عندما يتعلق الأمر بتتبع التغييرات وإعادة بناء النماذج من البداية. إنه لأمر سيء للغاية في بعض الأحيان يبدو وكأنه التراجع في الوقت المناسب عندما كنا الترميز دون التحكم بالمصادر.

على الرغم من أنك قد لا ترى مهارات "هندسة البرمجيات" هذه موضحة بشكل صريح في التوصيف الوظيفي لعالم البيانات ، إلا أن امتلاكك جيدًا لهذه المهارات كجزء من خلفيتك سيساعد بالفعل عملك 10x كعالم بيانات. بالإضافة إلى أنها ستصبح قيد الاستخدام عندما حان الوقت للإجابة على أسئلة البرمجة هذه أثناء مقابلة علم البيانات.

للاطلاع على بعض المنظورات المثيرة للاهتمام من الجانب الآخر ، راجع مقالة Trey Causey عن "مهارات تطوير البرمجيات لعلماء البيانات" حول المهارات التي يوصي بها أن يتعلم علماء البيانات "كتابة رمز أفضل ، والتفاعل بشكل أفضل مع مطوري البرامج ، وفي النهاية يوفر لك الوقت و الصداع".

تكثيف علم البيانات

من الرائع أن يكون لديك أساس جيد بخلفية هندسة البرمجيات لديك ، ولكن ما هي الخطوة التالية نحو أن تصبح عالِمة بيانات؟ تعتبر تغريدة Josh Will من لسان الخد حول تعريف عالم البيانات دقيقة بشكل مدهش:

يشير إلى أحد الموضوعات التي يجب عليك اللحاق بها إذا كنت مهتمًا بمتابعة دور عالم البيانات أو الوظيفة: الإحصائيات. في هذا القسم التالي ، سنغطي موارد كبيرة من أجل:

  • بناء المعرفة ML محددة
  • بناء صناعة المعرفة
  • أدوات في المكدس ML
  • مهارات ومؤهلات

بناء المعرفة ML محددة

من الأكثر فعالية بناء مزيج من المعرفة المستندة إلى النظريات حول الاحتمالات والإحصائيات وكذلك المهارات التطبيقية في أشياء مثل نزاع البيانات أو نماذج التدريب على وحدات معالجة الرسومات / الحوسبة الموزعة.

إحدى طرق تأطير المعرفة التي تكتسبها هي الإشارة إليها في مقابل سير عمل التعلم الآلي.

طريقة عرض مبسطة لسير عمل التعلم الآلي
انظر سير العمل المفصل هذا من Skymind AI

نورد هنا بعضًا من أفضل الموارد التي يمكنك العثور عليها حول التعلم الآلي. سيكون من المستحيل الحصول على قائمة شاملة وتوفير مساحة (ووقت قراءة) لم نذكر بها موارد شائعة جدًا مثل دورة أندرو نغ الدراسية أو Kaggle.

الدورات:

  • Fast.ai MOOC (دورات مجانية لتعليم المهارات التطبيقية عبر التعلم العملي العميق للمبرمجين ، التعلم المتطور العميق للمبرمجين ، الجبر الخطي الحسابي ، ومقدمة إلى التعلم الآلي للمبرمجين)
  • أكاديمية خان
  • 3Blue1Brown و mathematicalmonk قناة يوتيوب
  • دورات Udacity (بما في ذلك المعالجة المسبقة للتعلم الآلي في بيثون)
  • Springboard AI / ML- مسار خاص

الكتب المدرسية: * حاول العثور على ملفات PDF مجانية على الإنترنت لمعظم هذه *

  • البرمجة الاحتمالية وطرق بايزي للقراصنة
  • الاحتمالات والعمليات العشوائية
  • عناصر التعلم الإحصائي
  • الجبر الخطي
  • مقدمة في الجبر الخطي
  • خوارزمية التصميم

خطوط إرشاد:

  • دليل تعلم مطوري جوجل
  • أدلة إتقان تعلم الآلة (للحصول على نقطة انطلاق جيدة ، راجع هذه الدورة التدريبية المصغرة حول Python Machine Learning)
  • Pyimagesearch (لرؤية الكمبيوتر)

Meetups: * أساسًا في مدينة نيويورك *

  • أوراق نحبها
  • NYC الذكاء الاصطناعي والتعلم الآلي
  • DataCouncil.ai
  • نيويورك الذكاء الاصطناعي
للحصول على نقطة انطلاق رائعة ، تحقق من "أساتذة التعلم المفتوح المصدر لـ Will Wolf" حول كيفية تنظيم وقتك عبر دراسة مواضيع محددة والعمل على مشاريع لإظهار الخبرة في موقع بعيد بعيد التكلفة.

بناء المعرفة الخاصة بالصناعة

إذا كانت لديك رسالة تفيد بأنك ترغب في أن تكون صناعة معينة مثل الرعاية الصحية والخدمات المالية والسلع الاستهلاكية وتجارة التجزئة وما إلى ذلك ، فمن المهم للغاية اللحاق بنقاط الألم والتطورات في هذه الصناعة من حيث صلتها بالبيانات والآلة تعلم.

نصيحة واحدة = يمكنك مسح مواقع الويب الخاصة بشركات AI الخاصة بقطاع رأسي ومعرفة كيفية وضعهم لمقترحات القيمة الخاصة بهم وأين يبدأ التعلم الآلي. سيوفر لك هذا أفكارًا لمجالات محددة من تعلم الآلة للدراسة ومواضيع للمشاريع لعرض عملك.

يمكننا أن نمشي من خلال مثال: دعنا نقول أنني مهتم بالعمل في مجال الرعاية الصحية.

  1. من خلال البحث السريع في Google عن "الرعاية الصحية للتعلم الآلي" ، وجدت هذه القائمة من Healthcareweekly.com على "أفضل الشركات الناشئة للرعاية الصحية التي يجب مراقبتها في عام 2019"
يمكنك أيضًا إجراء عمليات بحث سريعة على Crunchbase أو AngelList باستخدام "الرعاية الصحية" ككلمة رئيسية

2. لنأخذ إحدى الشركات المدرجة في القائمة ، BenevolentAI ، كمثال.

3. ينص موقع BenevolentAI على:

نحن شركة AI ذات قدرة شاملة من الاكتشاف المبكر للعقاقير إلى التطوير السريري المتأخر. يجمع BenevolentAI بين قوة الطب الحسابي وعلم الذكاء الاصطناعي المتقدم ومبادئ النظم المفتوحة والحوسبة السحابية لتحويل الطريقة التي يتم بها تصميم الأدوية وتطويرها واختبارها وتقديمها إلى السوق.
قمنا ببناء منصة الخيرين لفهم المرض بشكل أفضل وتصميم علاجات جديدة وتحسينها ، من خلال كميات هائلة من المعلومات الطبية الحيوية. نعتقد أن تقنيتنا تمكن العلماء من تطوير الأدوية بشكل أسرع وأكثر فعالية من حيث التكلفة.
يتم نشر ورقة بحثية جديدة كل 30 ثانية ، لكن العلماء يستخدمون حاليًا جزءًا صغيرًا فقط من المعرفة المتاحة لفهم سبب المرض واقتراح علاجات جديدة. يستوعب منصتنا ، "يقرأ" ، ويضع سياقًا لكميات هائلة من المعلومات المستمدة من الوثائق المكتوبة وقواعد البيانات والنتائج التجريبية. إنه قادر على إجراء المزيد من الخصومات والاستدلالات بشكل غير محدود عبر مصادر البيانات المتباينة والمعقدة هذه ، وتحديد وإنشاء العلاقات والاتجاهات والأنماط ، والتي سيكون من المستحيل على الإنسان أن يقوم بها بمفرده.

4. على الفور يمكنك أن ترى أن BenevolentAI يستخدم معالجة اللغة الطبيعية (NLP) وربما يعمل مع بعض الرسوم البيانية المعرفية إذا كانوا يحددون العلاقات بين الأمراض وأبحاث العلاج

5. إذا قمت بفحص صفحة وظائف BenevolentAI ، فيمكنك أن ترى أنهم يستخدمون باحثًا أقدمًا في آلة التعلم الآلي. هذا دور كبير ، لذا فهو ليس مثالًا مثاليًا ، ولكن ألقِ نظرة على المهارات والمؤهلات التي يطلبونها أدناه:

ملحوظة:

  • معالجة اللغة الطبيعية ، والاستدلال الرسم البياني المعرفة ، والتعلم النشط والنمذجة الكيميائية الحيوية
  • مصادر بيانات منظمة وغير منظمة
  • نهج نموذج بايزي
  • معرفة الأدوات الحديثة ل ML

هذا يجب أن يوفر لك بعض الخطوات لما يجب اتباعه بعد ذلك:

  • العمل مع البيانات المهيكلة
  • العمل مع البيانات غير المهيكلة
  • تصنيف العلاقات في الرسوم البيانية للمعرفة (انظر مورد جيد هنا)
  • تعلم بايزي الاحتمالات والنمذجة النهج
  • العمل على مشروع البرمجة اللغوية العصبية (حتى البيانات النصية)

لا نوصي بالتقدم بطلب إلى الشركات التي تجدها من خلال بحثك ، بل نرى كيف يصفون نقاط الألم لدى عملائهم ، ومقترحات القيمة لشركتهم ، ونوع المهارات التي يدرجونها في توصيفات وظائفهم لتوجيه بحثك.

أدوات في المكدس ML

في الوصف الوظيفي BenevolentAI Senior Machine Learning Research ، يسألون عن "معرفة الأدوات الحديثة لـ ML ، مثل Tensorflow ، و PyTorch ، إلخ ..."

يمكن أن يبدو تعلم هذه الأدوات الحديثة لـ ML مثبطًا لأن المساحة تتغير دائمًا. لتقسيم عملية التعلم إلى أجزاء يمكن التحكم فيها ، تذكر أن تثبت تفكيرك حول سير عمل التعلم الآلي من الأعلى - "ما الأداة التي يمكن أن تساعدني في هذا الجزء من سير العمل؟"

لمعرفة الأدوات التي ترافق كل خطوة من سير عمل التعلم الآلي هذا ، راجع "مقدمة إلى مجموعة التعلم الآلي" الخاصة بـ Roger Huang والتي تغطي أدوات مثل Docker و Comet.ml و dask-ml.

من الناحية التكتيكية ، تعد Python و R أكثر لغات البرمجة شيوعًا التي يستخدمها علماء البيانات ويمكنك مواجهة حزم الوظائف المصممة لتطبيقات علم البيانات ، مثل NumPy و SciPy و matplotlib. يتم تفسير هذه اللغات ، بدلاً من تجميعها ، مما يترك لعالم البيانات الحرية للتركيز على المشكلة بدلاً من الفروق الدقيقة في اللغة. يجدر بنا أن نستثمر الوقت في تعلم البرمجة الموجهة للكائنات لفهم تنفيذ هياكل البيانات كصفوف.

للحاق بأطر ML مثل Tensorflow و Keras و PyTorch ، تأكد من الانتقال إلى الوثائق الخاصة بهم ومحاولة تنفيذ برامجهم التعليمية من البداية إلى النهاية.

في نهاية اليوم ، تريد التأكد من أنك تقوم ببناء مشاريع تعرض هذه الأدوات الحديثة لجمع البيانات والصراع وإدارة تجربة التعلم الآلي والنمذجة.

للحصول على بعض الإلهام لمشاريعك ، راجع مقالة إدوار هاريس حول "مشكلة البداية الباردة: كيفية بناء محفظة تعلم الآلة"

مهارات ومؤهلات

لقد تركنا هذا القسم للأخير لأنه يقوم بتجميع الكثير من المعلومات من الأقسام السابقة ، ولكنه موجه بشكل خاص نحو إعداد مقابلة علم البيانات. هناك ستة موضوعات رئيسية خلال مقابلة مع عالم البيانات:

  1. الترميز
  2. المنتج
  3. SQL
  4. اختبار A / B
  5. التعلم الالي
  6. الاحتمالية (انظر تعريف جيد مقابل الإحصائيات هنا)

ستلاحظ أن أحد هذه الموضوعات لا يشبه الموضوعات الأخرى (المنتج). بالنسبة لمناصب علم البيانات ، يعد التواصل حول المفاهيم والنتائج التقنية وكذلك مقاييس العمل وتأثيره أمرًا بالغ الأهمية.

بعض المجموعات المفيدة لأسئلة مقابلة علوم البيانات:
https://github.com/kojino/120ah-Science-Interview- Questions
https: //github.com/iamtodor/data-science-interview-questions-and-answers
https://hookedondata.org/red-flags-in-data-science-interviews/
https://medium.com/@XiaohanZeng/i- مقابلة - في خمسة - شركات - في - سيليكون - فالي - في - خمسة أيام - و- لحسن الحظ- الحصول على خمسة من بين الوظائف الشاغرة

ستلاحظ أننا قمنا بتضمين مقال "Hooked on Data" في "الأعلام الحمراء في مقابلات علوم البيانات" - بينما تقوم بإجراء مقابلة مع الأدوار ، ستصادف الشركات التي لا تزال تبني البنية الأساسية للبيانات الخاصة بها أو قد لا يكون لديها فهم قوي لكيفية يناسب فريق علم البيانات الخاص بهم قيمة الشركة الأكبر.

قد تستمر هذه الشركات في التسلسل الهرمي للاحتياجات أدناه.

التسلسل الهرمي للاحتياجات الشعبية من مونيكا روغاتي

بالنسبة لبعض التوقعات حول المقابلات الخاصة بعلوم البيانات ، أوصي بقراءة مقالة Tim Hopper حول "بعض الأفكار حول التراجع عن وظائف كثيرة في مجال علوم البيانات"

شكرا للقراءة! نأمل أن يساعدك هذا الدليل في فهم ما إذا كان علم البيانات مهنة يجب أن تفكر فيها وكيف تبدأ هذه الرحلة!

تريد أن ترى أحدث أدوار علم البيانات؟ اشترك في النشرة الإخبارية ML Jobs التي تصدر كل أسبوعين للحصول على فرص عمل جديدة لعلم البيانات في صندوق الوارد الخاص بك: