Ставам инженер за машинно обучение | Стъпка 4: Практика, практика, практика

Най-добрият метод за бързо набиране на основни умения за машинно обучение е да практикувате изграждането на вашите умения с малки лесни за разбиране набори от данни. Тази техника ви помага да изградите вашите процеси, като използвате интересни данни от реалния свят, които са достатъчно малки, за да ги гледате в excel или WEKA. В тази статия ще научите за висококачествена база данни с множество набори от данни и някои съвети, които да ви помогнат да фокусирате времето си върху това, което ви е важно!

Защо да практикувате с набори от данни?

Следването на онлайн уроци ще ви държи в капан в зависимо мислене, което ще ограничи растежа ви, защото не се научите КАК да решавате проблем. Вашето обучение как да приложите конкретно решение за определен тип проблем. Това е еквивалент на свръхфункционалност, което всички знаем, че води до лошо представяне в реалния свят. Ако се интересувате да станете инженер за машинно обучение, трябва да се уверите, че можете да обобщите реални данни. Предизвикайте себе си всеки ден и атакувайте проблеми, използвайки определен процес. Практикуването на вашите умения с помощта на набори от данни е най-добрият начин да направите това.

Къде мога да получа набори от данни?

За щастие на всички, има фантастично хранилище от проблеми с машинното обучение, до което можете да получите достъп безплатно.

UCI хранилище за машинно обучение

Центърът за машинно обучение и интелигентни системи в Калифорнийския университет в Ървайн изгради UCI хранилището за машинно обучение. За 30 години е мястото, където могат да се проведат изследователи по машинно обучение и студенти в машинно обучение, които се нуждаят от набори от данни, за да практикуват. Можете да изтеглите всички налични набори от данни на тяхната уеб страница. Те също така изброяват всички подробности за него, включително всички публикации, които са го използвали, което е наистина полезно, когато искате да научите изследователи, атакуващи проблема. Наборите от данни също могат да бъдат изтеглени по няколко различни начина (CSV / TXT).

Има само два недостатъка на наборите от данни за UCI.

  1. Другият недостатък е, че те са малки, така че няма да имате много опит в мащабни проекти, но това не трябва да има значение, защото вие сте нови в това! Започнете с малки!
  2. Най-същественият недостатък е, че тези набори от данни се почистват и предварително обработват. Почистването и предварителната обработка са основни части от процеса на машинно обучение, с които ще се сблъскате в кариерата си. Ако не прекарвате време в практикуване на това умение, ще ви навреди по-късно по пътя.

Практикуване по целенасочен начин

Как мислите за практикуване целенасочено, когато има толкова много набори от данни? Един амбициозен инженер за машинно обучение би направил най-добре да разбере какви са целите им и да избере набор от данни, който най-добре би ги постигнал до тази цел. Разработих няколко въпроса, на които можете да зададете себе си, за да намалите броя на наборите от данни.

  • Какъв проблем искате да решите?
  • Регресия, класификация, регресия, клъстериране?
  • Какъв размер на данните е? Десетки точки от данни или милиони
  • Колко функции има набор от данни?
  • Какъв тип функции?
  • От кой домейн е този набор от данни?

Разберете какъв тип набори от данни искате да се съсредоточите, за да съответстват на вашите по-широки цели. След като имате това, трябва да можете да филтрирате през огромния брой набори от данни, които са достъпни в платформата.

Примерни проблеми

Не се притеснявайте, ако не сте сигурни точно какво се опитвате да научите. Много по-добре е да не се заяждате, опитвайки се да намерите идеалния план за проучване. Направих списък с някои набори от данни, които може да ви се сторят интересни. Тук има няколко вида проблеми, така че ги изстреляйте.

Регресия: http://archive.ics.uci.edu/ml/datasets/Wine+Quality

Клъстериране: https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

Класификация: http://archive.ics.uci.edu/ml/datasets/Wine

Здравна класификация: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

Но..

Не мисля, че имам умения за това или имам чувството, че нещо ме спира да започна!
Добре е да се съмнявате в себе си от време на време, но не можете да го позволите да ви спре от вашите цели да станете машинен инженер. Време е да настроите вашето мислене.

Не знам как да програмирам!
Това е добре, защото моята статия „Ставам инженер за машинно обучение“ Стъпка 3: избор на инструмент преминава през един инструмент, който не се нуждае от умения за програмиране, за да се използва и който ви позволява да прилагате много алгоритми за машинно обучение.

Откъде бих започнал, когато става въпрос за решаване на проблемите?
Процес, който ви позволява да разгледате всеки проблем, е супер важен и считам, че научаването на този процес е по-добро от научаването за това как работи обратното разпространение. Вижте моята статия, в която се впускам в подробности относно избора на процес Връзка, за да изберете процес

Не мисля, че бих могъл да направя това сам?
Ученето на машинно обучение самостоятелно не е най-добрият начин за учене. Присъединяването към група от хора с единомислие ще направи чудеса за способността ви да се учите. Вижте тази статия, за да разберете повече.

За вкъщи

Ако сериозно се занимавате със самостоятелно проучване, помислете за съставяне на скромен списък от набори от данни, които искате да проучите допълнително. Следвайте целевия план за практика, за да изградите ценна основа за гмуркане в по-сложни и вълнуващи проблеми с машинно обучение.

Благодаря за четенето :) Ако ви е харесало, натиснете този бутон отдолу и ме последвайте! Това би означавало много за мен и ще ме насърчи да пиша още подобни истории

Нека също да се свържем в Twitter, LinkedIn или имейл