Orodha Ya Uhakiki Wa ML

Orodha ya maudhui:

Orodha Ya Uhakiki Wa ML
Orodha Ya Uhakiki Wa ML

Video: Orodha Ya Uhakiki Wa ML

Video: Orodha Ya Uhakiki Wa ML
Video: Tamthiliya ya Orodha FULL MOVIE BY Steve Reynolds u0026 Uhakiki wa Fani na Maudhui. 2024, Novemba
Anonim

Kwa lengo la kuongeza kuzaa na kuwawezesha wengine kujenga juu ya kazi iliyochapishwa kwa urahisi zaidi, tunawasilisha orodha ya ukamilifu ya msimbo wa ML. Orodha ya Kukamilika kwa Msimbo wa ML inatathmini duka la nambari kulingana na hati na vifaa vilivyotolewa ndani yake.

Orodha ya uhakiki wa ukamilifu wa ML
Orodha ya uhakiki wa ukamilifu wa ML

Utangulizi

Mwaka jana, Joel Pino alitoa orodha ya kuzaliana ili kuwezesha utafiti wa kuzaa uliowasilishwa kwenye mikutano mikubwa ya OA (NeurIPS, ICML,…). Vitu vingi kwenye orodha hiyo huzingatia vijenzi vya karatasi. Kitu kimoja kwenye orodha hii ni "toa kiunga cha nambari ya chanzo," lakini zaidi ya hayo, mapendekezo machache yalitolewa.

Mazoea bora yamefupishwa katika Orodha ya Kukamilika kwa Msimbo wa ML, ambayo sasa ni sehemu ya mchakato rasmi wa uwasilishaji wa nambari za NeurIPS 2020 na itapatikana kwa kutumiwa na wahakiki kadiri waonavyo inafaa.

Orodha ya uhakiki wa ML

Orodha ya Kukamilika kwa Msimbo wa M huangalia duka la nambari za:

  1. Utegemezi - Je! Ghala ina habari ya utegemezi au maagizo ya jinsi ya kuweka mazingira?
  2. Matukio ya Mafunzo - Je! Hifadhi ina njia ya kufundisha / kutoshea mifano iliyoelezewa kwenye waraka?
  3. Matukio ya Tathmini - Je! Ghala lina hati ya kuhesabu utendaji wa modeli zilizofunzwa au majaribio ya kuendesha kwenye modeli?
  4. Mifano zilizopangwa mapema - Je! Hifadhi hiyo inatoa ufikiaji wa bure kwa uzito wa mfano uliopangwa mapema?
  5. Matokeo - je, jalada lina jedwali / grafu ya matokeo kuu na hati ya kuzaa matokeo hayo?

Kila hazina inaweza kupokea kutoka kwa 0 (haina) hadi 5 (ina yote) kupe. Habari zaidi juu ya vigezo vya kila kitu inaweza kupatikana katika ghala la Github.

Je! Ni ushahidi gani kwamba vitu vya orodha vinachangia katika hazina muhimu zaidi?

Jamii kwa ujumla hutumia nyota za GitHub kama wakala wa manufaa ya hazina hiyo. Kwa hivyo, mapumziko yenye alama ya juu kwenye orodha ya ukamilifu wa ML yanatarajiwa pia kuwa na nyota zaidi za GitHub. Ili kujaribu nadharia hii, kulikuwa na repos 884 za GitHub zilizowasilishwa kama utekelezaji rasmi katika hati za NeurIPS 2019. Sehemu ndogo ya 25% ya repos hizi 884 zilichaguliwa kwa nasibu na kukaguliwa kwa mikono katika orodha kamili ya ML. Waliweka pamoja sampuli hizi za NeurIPS 2019 GitHub kwa idadi ya kupe ambao wako katika orodha ya ukamilishaji wa nambari ya ML na wakapanga nyota za wastani za GitHub katika kila kikundi. Matokeo ni hapa chini:

Picha
Picha

Pumziko la NeurIPS 2019 na visanduku 0 vya ukaguzi vilikuwa na wastani wa nyota 1.5 kwenye GitHub. Kwa upande mwingine, mapumziko na visanduku 5 vya kukagua yalikuwa na wastani wa nyota za GitHub 196.5. 9% tu ya raha zilikuwa na kupe 5, na raha nyingi (70%) zilikuwa na kupe tatu au chini. Jaribio la jumla la kiwango cha Wilcoxon lilifanywa na iligundua kuwa idadi ya nyota katika darasa la kupe 5 ni kubwa (p.thamani <1e-4) juu kuliko katika madarasa mengine yote isipokuwa 5 dhidi ya 4 (ambapo p.thamani ni mpaka). saa 0.015). Unaweza kuona data na nambari ya takwimu hii katika hazina ya Github.

Ili kujaribu ikiwa uhusiano huu unapanuka zaidi, hati iliundwa kusanikisha hesabu ya orodha kutoka kwa hazina ya README na nambari inayohusiana. Kisha tukachambua tena seti nzima ya hazina 884 za NeurIPS 2019, pamoja na seti pana ya hazina za msimbo 8926 za nakala zote za ML zilizochapishwa mnamo 2019. Katika visa vyote viwili, wataalam walipata matokeo yanayofanana na ya wastani na nyota za wastani zikiongezeka kiotomatiki kutoka kwa kupe kwa njia ya kitakwimu (uk.thamani <1e-4). Mwishowe, tukitumia urekebishaji mkali wa laini, tulipata mifano na matokeo ya kujifanya tayari kuwa na athari nzuri zaidi kwa nyota za GitHub.

Hii inachukuliwa kama ushahidi muhimu na wachambuzi ambao wanahimiza watafiti kujumuisha vitu vyote vinavyohitajika na orodha kamili ya ML itasababisha hazina muhimu zaidi, na kwamba alama kwenye orodha hiyo inaonyesha maoni bora zaidi.

Hivi sasa, wataalam hawadai kwamba vitu 5 vya orodha ya hakiki zilizopendekezwa ndio pekee au hata jambo muhimu zaidi katika umaarufu wa hazina hiyo. Sababu zingine zinaweza kuathiri umaarufu, kama vile: saizi ya mchango wa kisayansi, uuzaji (kwa mfano machapisho ya blogi na machapisho ya Twitter), nyaraka (README za kina, mafunzo, na nyaraka za API), ubora wa nambari, na kazi iliyotangulia.

Mifano kadhaa ya hazina za NeurIPS 2019 zilizo na visanduku 5:

Wataalam wanatambua kuwa ingawa wamejaribu kuifanya orodha hiyo iwe ya jumla iwezekanavyo, haiwezi kutumika kikamilifu kwa aina zote za hati, kwa mfano, nadharia au seti za hati. Walakini, hata ikiwa kusudi kuu la kifungu hicho ni kuwakilisha hifadhidata, bado inaweza kufaidika na kutolewa kwa mifano ya msingi, pamoja na mazingira ya mafunzo, hali ya tathmini, na matokeo.

Anza kutumia

Ili iwe rahisi kwa wahakiki na watumiaji kuelewa ni nini katika ghala na kwa wataalam kuitathmini kwa usahihi, mkusanyiko wa njia bora hutolewa kwa kuandika faili za README.md, kufafanua utegemezi, na kutolewa kwa mifano iliyowekwa tayari, hifadhidata, na matokeo. Inashauriwa ufafanue wazi vitu hivi 5 kwenye hazina yako na uziunganishe na rasilimali zozote za nje kama hati na bodi za wanaoongoza ili kutoa muktadha na ufafanuzi zaidi kwa watumiaji wako. Hizi ni miongozo rasmi ya kuwasilisha nambari kwa NeurIPS 2020.

Ilipendekeza: