Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Ahoj.
Vítame každého.
Moje meno je Lucas Freitas.
Som junior na [nepočuteľný] štúdium výpočtová technika so zameraním na
počítačová lingvistika.
Takže moje sekundárne je v jazyku a lingvistické teórie.
Som naozaj ***šený, že učiť vás chlapci niečo málo o tejto oblasti.
Je to veľmi vzrušujúce priestor k štúdiu.
Tiež s veľkým potenciálom pre budúcnosť.
Takže som naozaj ***šená, že vy uvažujete o projekty v
počítačová lingvistika.
A ja budem viac než rád poradí niekto z vás, či sa rozhodnete
sledujú jeden z nich.
>> Takže v prvom rade to, čo je výpočtový lingvistika?
Takže počítačová lingvistika je Priesečník medzi lingvistiky a
počítačová veda.
Takže, čo je lingvistika?
Čo je to počítačová veda?
No z lingvistiky, čo Vezmeme sú jazyky.
Takže lingvistika je vlastne štúdium prirodzeného jazyka všeobecne.
Takže prirodzený jazyk - hovoríme o jazyk, ktorý sme vlastne použiť na
vzájomne komunikovať.
Takže sme zrovna hovorí o C alebo Java.
Hovoríme viac o angličtine a Číňania a ďalšie jazyky, ktoré sme
používajú na komunikáciu medzi sebou navzájom.
>> Náročná vec, o to je to, že teraz máme takmer 7000
jazykov na svete.
Takže existuje pomerne vysoká odroda jazykov, ktoré môžeme študovať.
A potom si myslím, že je to pravdepodobne veľmi ťažké urobiť, napríklad,
preklad z jedného jazyka do iné, za to, že máte
takmer 7000 z nich.
Takže, ak si myslíte, že robíte preklad z jedného jazyka do druhého si
majú takmer viac ako milión rôzne kombinácie, ktoré môžete
sa od jazyka k jazyku.
Takže je to naozaj náročné urobiť nejaké druh príklad preklade systému
každý jazyk.
>> Takže, lingvistika zaobchádza s syntaxou, sémantika, pragmatika.
Vy nie práve potrebujete vedieť, čo sú.
Ale veľmi zaujímavá vec je, že ako rodený hovorca, keď sa naučíte
jazyk ako dieťa, vlastne učiť všetky tie veci - syntax sémantiky
a pragmatika -
sami.
A nikto sa naučiť syntax pre aby ste pochopili, ako vety sú
štruktúrované.
Takže, je to naozaj zaujímavé, pretože je to niečo, čo je veľmi
intuitívne.
>> A čo berieš od počítačová veda?
No, najdôležitejšia vec, ktorú by sme majú v informatike je prvá
všetko, umelá inteligencia a strojové učenie.
Takže to, čo sa snažíme robiť výpočtovej lingvistika je vyučovať
váš počítač, ako niečo urobiť s jazykom.
>> Tak, napríklad, v prístroji preklad.
Snažím sa učiť môj počítač how vedieť, ako prejsť z jedného
jazyka do druhého.
Takže, v podstate rád učení počítačové dva jazyky.
Ak sa mi spracovanie prirodzeného jazyka, čo je prípad napríklad
Facebook je graf Vyhľadávanie, učíte počítač, ako porozumieť
otázky dobre.
>> Takže, keď poviete "fotografie z môjho priatelia. "Facebook nelieči, že
ako celý reťazec, ktorý má len banda slov.
Je to vlastne chápe vzťah medzi "fotky" a "moji priatelia" a
chápe, že "fotky" sú vlastnosť "mojich priateľov."
>> Tak, to je časť, napríklad, spracovanie prirodzeného jazyka.
Snaží sa porozumieť tomu, čo je vzťah medzi
slová vo vete.
A veľká otázka je, môžete naučiť počítač, ako hovoriť
jazyka všeobecne?
Čo je veľmi zaujímavá otázka, myslím, ako by snáď v budúcnosti,
budete mať možnosť poraďte sa so svojim mobilným telefónom.
Niečo ako to, čo robíme s Siri, ale niečo ako, môžete skutočne
hovoriť, čo chcete, a telefón bude rozumieť všetkému.
A to môže mať nadväzujúce otázky a ďalej hovoriť.
To je niečo, čo naozaj vzrušujúce, podľa môjho názoru.
>> Takže, niečo o prirodzených jazykov.
Niečo naozaj zaujímavé prirodzené jazyky je to, že, a to je
úver na môj profesor lingvistiky, Maria Polinsky.
Dáva príklad a myslím, že je to naozaj zaujímavé.
Vzhľadom k tomu, učíme jazyk od okamihu, kedy sa narodíme a potom náš rodák
Jazyk druh rastie na nás.
>> A v podstate sa naučíte jazyk od minimálnej vstup, nie?
Vy ste len dostať vstup z vášho rodičia o tom, čo váš jazyk zvuky
páči a proste sa to naučiť.
Takže, je to zaujímavé, pretože keď sa pozriete v týchto vetách, napríklad.
Môžete sa pozrieť, "Mary stavia na kabát každej čas odíde z domu. "
>> V tomto prípade je možné mať Slovo "to" sa vzťahujú k Márii, že jo?
Môžete povedať: "Mary stavia na kabát zakaždým, keď opúšťa Mary
dom. "tak, že je v poriadku.
Ale potom keď sa pozriete na vete "Ona si vezme kabát zakaždým Mary
opustí dom. "Vieš, že je to možné povedať, že "ona" je
s odkazom na Máriu.
>> Neexistuje žiadny spôsob, ako povedať, že "Mary kladie na kabát zakaždým Mary listy
dom. "Tak to je zaujímavé, pretože toto je ten druh intuície
že každý rodený hovorca má.
A nikto sa učili, že je to tak, že syntaxe funguje.
A to môžete mať len túto "ona" s odkazom na Máriu v tomto prvom prípade,
a v skutočnosti v tejto inej taky, ale nie v tomto.
Ale každý druh dostane na rovnakú odpoveď.
Všetci sa zhodujú na tom.
Tak to je naozaj zaujímavé, ako aj nepoznáte všetky pravidlá
vo vašom jazyku tak nejako pochopiť, ako jazyk funguje.
>> Takže zaujímavá vec, o prírodné jazyk, je, že nemusíte
nepoznám syntax vedieť, či veta je gramatická alebo ungrammatical pre
vo väčšine prípadov.
Čo si myslím, že možno to, čo sa stane, je, že cez svojho života, budete
len držať stále viac a viac vety povedal pre vás.
A potom budete mať zapamätanie všetky viet.
A potom, keď vám niekto povie, niečo, počujete vetu a
sa pozeráte na svojho slovníka viet a zistiť, či
že veta je tam.
A ak je tam máte hovoria, že je to gramatický.
Ak to nie je poviete, že je to ungrammatical.
>> Takže v tomto prípade, by ste povedali, oh, takže máte obrovský zoznam všetkých
Možné tresty.
A potom, keď počujete vetu, Viete, či je to gramatický alebo
nie je založený na tom.
Vec je, že keď sa pozriete na vety, napríklad "
päť v čele CS50 TFS varené slepého chobotnice pomocou daPa hrnček. "Je to
rozhodne nie trest že ste počuli predtým.
Ale zároveň viete, že je to skoro gramatické, že jo?
Nie sú žiadne gramatické chyby a možno povedať, že
je to možné trest.
>> Tak to z nás robí si myslia, že v skutočnosti tak, že sa učíme jazyk nie je len
tým, že má obrovskú databázu možný slová alebo vety, ale viac
pochopenie vzťahu medzi Slová v týchto vetách.
Má to zmysel?
Takže potom je otázka, môže Počítače sa učia jazyky?
Môžeme učiť jazyk počítača?
>> Takže, poďme premýšľať o rozdiele medzi rodeným hovorcom jazyka
a počítač.
Takže, čo sa stane s reproduktora?
No, rodený hovorca učí jazyk z expozície k nej.
Obvykle jeho rané detstvo.
Takže, v podstate, stačí mať dieťa, a stále hovoriť k nemu, a to
len učia, ako hovoriť jazyk, nie?
Takže, ste v podstate dáva vstup pre dieťa.
Takže, potom môžete tvrdiť, že počítač môžete urobiť to isté, nie?
Stačí si len dať JAZYKA ako vstup do počítača.
>> Ako napríklad banda súborov ktoré majú knihy v angličtine.
Možno, že je to jeden zo spôsobov, ktoré vám by sa mohla učiť
počítač English, jo?
A v skutočnosti, ak si myslíte, že o tom, to sa ti možno pár
dni, čítať knihu.
Na počítači to trvá sekundu pozrite sa na všetky slová v knihe.
Takže si môžete myslieť, že môže byť len to Argument vstup z okolo vás,
to nestačí povedať, že je to niečo, čo len človek môže robiť.
Môžete si myslieť počítača môžu tiež získať vstup.
>> Druhá vec je, že rodení hovorcovia tiež mozog, ktorý má
schopnosť učenia sa jazyka.
Ale ak si myslíte, že o tom, Mozog je solídny vec.
Keď ste sa narodili, je to už nastavený -
To je váš mozog.
A ako vyrastieš, stačí si viac Vstup jazyka a možno živiny
a ďalšie veci.
Ale do značnej miery sa váš mozog je pevná vec.
>> Takže môžete povedať, dobre, možno môžete postaviť počítač, ktorý má veľa
funkcie a metódy, ktoré len napodobňujú schopnosť učenia sa jazyka.
Takže v tomto zmysle, dalo by sa povedať, dobre, ja môže mať počítač, ktorý má všetky
veci, ktoré som sa potrebujú naučiť jazyk.
A posledná vec je, že natívny hovorca učia od pokusov a omylov.
Takže v podstate ďalšia dôležitá vec jazykového vzdelávania je, že druh
z naučiť veci tým, že zovšeobecnenie toho, čo počujete.
>> Takže, ako ste vyrastal ste sa dozvedeli, že niektoré slová sú ako podstatné mená,
niektoré ďalšie z nich sú adjektíva.
A nemusíte mať akýkoľvek znalosť lingvistiky
pochopiť, že.
Ale jednoducho viem, že je niektorá slová sú umiestnené v určitej časti
veta a niektoré ďalšie v iných časti vety.
>> A že keď robíte niečo, čo je ako veta, že nie je správne -
možno preto, že z viac ako generalizácie napríklad.
Možno, keď ste vyrastal, si všimnete že množné číslo je zvyčajne
tvoril tým, že by s pri koniec slova.
A potom sa pokúsite urobiť množné "Jeleň" ako "jelene" alebo "zub" je
"Zuba." Takže potom sa vaše rodičia, alebo niekto opraví a povie, nie,
množné číslo "jeleň" je "jeleň", a množné "zub" je "zuby". A potom
naučíte tie veci.
Takže ste sa dozvedeli od pokusov a omylov.
>> Ale môžete si tiež urobiť, že s počítačom.
Môžete mať niečo, čo nazýva posilňované učenie.
Čo je v podstate ako dávať Počítač odmena kedykoľvek to robí
niečo správne.
A dávať to opak odmenu a keď sa robí niečo zlé.
Môžete skutočne vidieť, že keď idete do Google Translate a skúste
preložiť vetu, že spýta sa vás, pre spätnú väzbu.
Takže keď hovoríte, ach, tam je lepšie preklad pre túto vetu.
Môžete zadajte ho a potom, ak veľa ľudia stále hovoria, že je lepšie
preklad, to jednoducho zistí, že je to by sa namiesto použiť tento preklad
kto to dával.
>> Takže, je to veľmi filozofická otázka zistiť, či počítače sa bude
schopný hovoriť, alebo nie v budúcnosti.
Ale ja som si veľké nádeje, že môžu práve na základe týchto argumentov.
Ale je to len viac filozofický otázka.
>> Takže aj keď počítače stále nemôže hovoriť, aké sú veci, ktoré môžeme robiť?
Niektoré naozaj cool veci sú klasifikácia dát.
Tak, napríklad, vy viete, že e-mailové služby, áno, pre
príklad, filtrovanie spamu.
Takže zakaždým, keď dostanete spam, to sa snaží filtrovať na iné pole.
Tak ako to robí, že?
Nie je to tak, že počítač jednoducho vie, aké e-mailové adresy sú odosielanie spamu.
Takže je to viac na základe obsahu správy, alebo možno titulu, alebo
možno nejaký vzor, ktorý máte.
>> Takže, v podstate, čo môžete urobiť, je dostať Mnoho údajov o e-maily, ktoré sú spam,
e-maily, ktoré nie sú spam, a dozvedieť sa, čo druh vzorov máte v
tie, ktoré sú spam.
A toto je časť výpočtových lingvistika.
Hovorí sa klasifikácie dát.
A my vlastne uvidí príklad, že v najbližších snímok.
>> Druhá vec je prirodzený jazyk spracovanie, čo je vec, ktorá sa
Graf Hľadanie robí z nájmu môžete napísať vetu.
A verí, že chápete, čo je zmysel a dáva
Ste lepší výsledok.
V skutočnosti, ak idete na Google alebo Bing a hľadať niečo ako dáma
Výška Gaga, ste vlastne deje získať 5 '1 "namiesto informácií
od nej, pretože to vlastne chápe čo hovoríš.
Takže to je súčasťou prírodného spracovanie jazyka.
>> Alebo tiež v prípade, že používate Siri, prvý Máte algoritmus, ktorý sa snaží
prekladať, čo hovoríš do slov v texte.
A potom sa snaží prekladať že na význame.
Takže to všetko je súčasťou prírodnej spracovanie jazyka.
>> Potom máte strojového prekladu -
, Ktorý je v skutočnosti jedna z mojich obľúbených -
ktorý je len preklad z jazyka do druhého.
Takže si môžete myslieť, že keď robíte strojový preklad, máte
nekonečné možnosti viet.
Takže neexistuje žiadny spôsob, ako len ukladanie každý preklad.
Takže budete musieť prísť s zaujímavý algoritmy, aby bolo možné
prekladať každý veta nejakým spôsobom.
>> Vy máte nejaké otázky tak ďaleko?
Nie?
OK.
>> Takže to, čo budeme dnes vidieť?
Po prvé, budem hovoriť o tom, Problém klasifikácie.
Takže ten, že som bola hovorí o spamu.
Čo budem robiť, je vzhľadom k tomu, Text skladby skladbu, môžete sa pokúsiť prísť na to,
s vysokou pravdepodobnosťou kto je speváčka?
Povedzme, že mám pesničky od Lady Gaga a Katy Perry, keby som vám
nový song, môžete zistiť, či to je Katy Perry alebo Lady Gaga?
>> Druhý, ja som len hovoriť o probléme segmentácie.
Tak neviem, či vy viete, ale Čínština, japončina, ďalšie východnej Ázie
jazyky a ďalšie jazyky všeobecne, nemajú
medzery medzi slovami.
A potom, ak si myslíte, že o tom, ako tejto počítač druhu pokusov na
pochopiť, spracovanie prirodzeného jazyka, to vyzerá na slová a
sa snaží pochopiť vzťahy medzi nimi, nie?
Ale potom, ak máte čínsky, a majú nulové medzery, je to naozaj ťažké
zistiť, aký je vzťah medzi slová, pretože nemajú žiadne
slová na prvom mieste.
Takže budete musieť urobiť niečo, čo nazýva segmentácia, ktorá jednoducho znamená uvedenie
medzery medzi tým, čo by sme nazvali slová v týchto jazykoch.
Zmysel?
>> A potom budeme hovoriť o syntax.
Takže len trochu o prírodné spracovanie jazyka.
Bude to mať len prehľad.
Takže dnes, v podstate to, čo chcem robiť, sa vám chlapci trochu
vnútri, aké sú možnosti ktoré môžete robiť s výpočtových
lingvistika.
A potom vidíte, čo si myslíte je v pohode medzi týmito vecami.
A možno, že si môžete myslieť o projekte a prísť so mnou hovoriť.
A môžem vám poradiť o tom, ako to urobiť.
>> Takže syntaxe bude trochu o Graf vyhľadávanie a stroje
preklad.
Idem dať príklad toho, ako môžete napríklad prekladať
niečo z portugalčiny do angličtiny.
Znie to dobre?
>> Tak za prvé, problém klasifikácie.
Poviem, že táto časť seminára bude najnáročnejšie
jeden len preto, že sa deje byť niektoré kódovanie.
Ale to bude Python.
Viem, že vy neviete, Python, takže Idem vysvetliť na vysokej
úrovni to, čo robím.
A nemusíte sa naozaj záleží tiež veľa o syntax, pretože to je
niečo, čo vy môžete naučiť.
OK?
To znie dobre.
>> Tak v čom je problém klasifikácie?
Takže vzhľadom k niektorej texty na pieseň, a chcete hádať
ktorý je spievať.
A to môže byť pre akýkoľvek druh ďalších problémov.
Takže to môže byť, napríklad, máte prezidentská kampaň a máte
reč, a chcete nájsť , Či je to, napríklad,
Obama a Mitt Romney.
Alebo môžete mať veľa e-mailov a Ak chcete zistiť, či sú
spam alebo nie.
Takže je to len klasifikácii niektorých Údaje založené na slová
že ste tam.
>> Takže to, že budete musieť vykonať niektoré predpoklady.
Takže veľa o počítačovej lingvistiky robí predpokladov,
zvyčajne inteligentný predpoklady, aby môžete získať dobré výsledky.
Snažím sa vytvoriť model pre ňu.
A potom sa to vyskúšať a zistiť, či to funguje, v prípade, že vám dáva dobrú presnosť.
A ak áno, potom ste pokúsiť sa zlepšiť.
Ak tomu tak nie je, budete rád, OK, možno som by mal iný predpoklad.
>> Takže predpoklad, že budeme je to, že umelec sa zvyčajne spieva
o téme niekoľkokrát, a možno používa slová niekoľkokrát len
pretože sú na to zvyknutí.
Stačí si len myslieť na svojho priateľa.
Som si istý, chalani majú priateľov ktoré hovoria, ich podpis frázu,
doslova pre každú vetu -
ako nejaká konkrétne slová alebo niektorých špecifických frázy, ktoré hovoria, že pre
každý trest.
>> A to, čo môžem povedať, je, že keď vidíte vetu, ktorá má podpis
frázy, môžete hádať, že pravdepodobne Váš priateľ je
kto hovorí, že jo?
Tak urobíte tento predpoklad a potom to, ako vytvoriť model.
>> Príklad, že budem dávať je na ako Lady Gaga, napríklad, ľudia
hovoria, že ona používa "dieťa" na všetky jej číslo jedna piesne.
A v skutočnosti je to video, ktoré ukazuje, jej hovoriť slovo "dieťa" pre
rôzne piesne.
>> [PLAYBACK]
>> - (SINGING) Detská.
Dieťa.
Dieťa.
Dieťa.
Dieťa.
Babe.
Dieťa.
Dieťa.
Dieťa.
Dieťa.
>> [END Videoprehrávanie-
>> LUCAS FREITAS: Takže tam sú, myslím, 40 piesní tu v ktorom ona hovorí
Slovo "dieťa." Takže si môžete v podstate hádať že keď vidíte skladbu, ktorá má
slovo "dieťa", tam je nejaký vysoký pravdepodobnosť, že je to Lady Gaga.
Ale skúsme sa na rozvoji tejto ďalej potom formálne.
>> Takže sa jedná o texty k piesňam od Lady Gaga a Katy Perry.
Takže sa pozriete na Lady Gaga, môžete vidia majú veľa výskytov "dieťa,"
Mnoho výskytov "spôsobom." A potom Katy Perry má mnoho výskytov
"," Mnoho výskytov "ohňa."
>> Takže v podstate to, čo chceme to znamená, že dostanete lyriku.
Povedzme, že budete mať lyriku pre pieseň, ktorá je "dieťa" len "dieťa." Ak
stačí si slovo "dieťa", a to je všetky dáta, ktoré ste od
Lady Gaga a Katy Perry, ktorá by môžete hádať, je osoba,
kto spieva pesničku?
Lady Gaga alebo Katy Perry?
Lady Gaga, že jo?
Vzhľadom k tomu, že je jediný, kto hovorí, že "Dieťa." Znie to hlúpo, že jo?
OK, je to naozaj jednoduché.
Len sa pozerám na dvoch piesňach a Samozrejme, ona je jediná, kto má
"Dieťa."
>> Ale čo keď máte veľa slov?
Ak máte skutočný lyrická, niečo ako "dieťa, ja len
šiel vidieť [? CFT?]
prednáška, "alebo niečo také, a potom ste skutočne zistiť, -
na základe všetkých týchto slov -
kto je umelec, ktorý pravdepodobne spieval túto pieseň?
Takže poďme sa snaží rozvíjať Tento kúsok ďalej.
>> OK, takže na základe len na dáta, ktoré sa má, zdá sa, že Gaga je pravdepodobne
spevák.
Ale ako môžeme písať to viac formálne?
A tam to bude trochu Trochu štatistiky.
Takže ak ste sa stratili, nech to skúsi pochopiť pojem.
Nezáleží na tom, či mi rozumiete rovnice dobre.
To všetko bude on-line.
>> Takže v podstate to, čo som výpočet je pravdepodobnosť, že táto pieseň je o
Lady Gaga za predpokladu, že -
takže to znamená, bar za predpokladu, že -
Videl som slovo "dieťa". Má to zmysel?
Takže sa snažím vypočítať že pravdepodobnosť.
>> Takže tam je to veta nazýva Bayesův teorém, ktorý hovorí, že
pravdepodobnosť daného B, je pravdepodobnosť B vzhľadom k A, čas
pravdepodobnosť, než pravdepodobnosť B. Jedná sa o dlhý rovnice.
Ale to, čo musíte pochopiť, zo to je, že to je to, čo chcem
vypočítať, že jo?
Takže pravdepodobnosť, že pieseň je o Lady Gaga za predpokladu, že som videl slovo
"Dieťa."
>> A teraz, čo som dostať je pravdepodobnosť, že sa slovo "dieťa" vzhľadom
že mám Lady Gaga.
A čo je to v podstate?
Čo to znamená je to, čo je pravdepodobnosť vidieť slovo "dieťa"
V Gaga texty?
Ak chcem, aby vypočítali, že vo veľmi Jednoduchý spôsob, je to len číslo
Časy vidím "dieťa" na celkovom počte slov v Gaga texty, nie?
Aká je frekvencia, ktorú vidím že slovo Gaga prácu?
Zmysel?
>> Druhý termín je pravdepodobnosť Gaga.
Čo to znamená?
To v podstate znamená, že to, čo je pravdepodobnosť zaradenia
Niektoré texty sú Gaga?
A to je trochu divné, ale poďme myslieť na príklade.
Takže povedzme, že pravdepodobnosť s "dieťa" v piesni je rovnaký
pre Gaga a Britney Spears.
Ale Britney Spears má dvakrát viac piesní, než Lady Gaga.
Takže ak vám niekto len náhodne dáva Slová "dieťa", prvá vec, ktorú
pozrieť sa na to, čo je pravdepodobnosť s "dieťa" vo Gaga pieseň, "dieťa"
vo Britney piesni?
A to je to isté.
>> Takže druhá vec, ktorú uvidíte, je, dobre, čo je pravdepodobnosť
Tento lyrický samo o sebe, že Gaga lyric, a aká je pravdepodobnosť, že
že Britney lyrický?
Takže od Britney má toľko viac texty než Gaga, by pravdepodobne
povedzme, no, to je asi Britney lyrický.
Takže to je dôvod, prečo máme tento nazvať priamo tu.
Pravdepodobnosť Gaga.
Dáva to zmysel?
Má to?
OK.
>> A posledná je len pravdepodobnosť o "dieťa", ktoré nie je
naozaj záležitosť, ktorá veľa.
Ale je to pravdepodobnosť vidieť "dieťa" v angličtine.
Zvyčajne je to jedno, že veľa o tom termíne.
Má to zmysel?
Takže pravdepodobnosť Gaga je volal pred pravdepodobnosti
triedneho Gaga.
Vzhľadom k tomu, to len znamená, že to, čo je pravdepodobnosť, že bude túto triedu -
ktorý je Gaga -
len všeobecne, len bez podmienok.
>> A potom, keď som sa pravdepodobnosť Gaga vzhľadom k "dieťa," hovoríme a
uslzené pravdepodobnosti, pretože je to pravdepodobnosť, že bude
Gaga uvedený nejaký dôkaz.
Takže dávam vám dôkazy že som videl slovo dieťa a
Pieseň zmysel?
OK.
>> Takže keď som spočítal, že pre každý z piesní pre Lady Gaga,
čo by to bolo -
Zdá sa, že nemôžem pohnúť to.
Pravdepodobnosť, že Gaga bude niečo podobné, 2 cez 24, časy 1/2,
viac ako 2 po 53.
Nezáleží na tom, či viete, čo tieto čísla sú zasielané z
Ale je to len číslo, ktoré sa bude byť väčšia ako 0, nie?
>> A potom, keď som to Katy Perry, pravdepodobnosť "dieťa", vzhľadom Katy je
Už 0, nie?
Pretože neexistuje žiadny "dieťa" Katy Perry.
Takže potom to bude 0, a Gaga víťazstvo, čo znamená, že Gaga je
pravdepodobne spevák.
Má to zmysel?
OK.
>> Takže ak chcem, aby to viac úradníka, Môžem skutočne urobiť model
Pre viac slov.
Takže povedzme, že mám niečo, čo ako "baby, ja som
v ohni, "alebo tak niečo.
Tak to má viac slov.
A v tomto prípade, môžete vidieť že "dieťa" je Gaga,
ale to nie je v Katy.
A "oheň" je v Katy, ale to nie je v Gaga, že jo?
Takže je to čím ďalej zložitejšie, že jo?
Vzhľadom k tomu, zdá sa, že takmer mať kravatu medzi nimi.
>> Takže to, čo musíte urobiť, je predpokladať, nezávislosť medzi slová.
Takže v podstate to, čo to znamená, že Ja len výpočet toho, aká je
pravdepodobnosť vidieť "dieťa," to, čo je pravdepodobnosť vidieť "ja", a
"Ja", a "o" a "oheň," všetky samostatne.
Potom som vynásobením všetky z nich.
A ja som videl, čo je pravdepodobnosť, vidieť celú vetu.
Zmysel?
>> Takže v podstate, keď mám len jedno slovo, to, čo chcem nájsť, je arg max,
čo znamená, že to, čo je trieda, ktorá je mi dáva najväčšiu pravdepodobnosť?
Takže to, čo je trieda, ktorá dáva ma najvyššiu pravdepodobnosť
pravdepodobnosť triedy daného slova.
Takže v tomto prípade, vzhľadom k tomu Gaga "dieťa." Rovnako Katy "dieťa." Zmysel?
>> A práve z Bayes, že rovnica, že som ukázal,
sme sa vytvoriť tento zlomok.
Jediná vec je, že vidíte, že pravdepodobnosť slová vzhľadom
zmeny triedy v závislosti na triede, že jo?
Počet "Baby" s, ktoré som V Gaga sa líši od Katy.
Pravdepodobnosť triedy tiež zmeny, pretože je to len číslo
piesní každý z nich má.
>> Ale pravdepodobnosť, že sa slová sám bude rovnaká pre všetky
umelci, že jo?
Takže pravdepodobnosť, že slovo je Len to, čo je pravdepodobnosť
vidieť, že slovo Anglický jazyk?
Takže je to rovnaké pre všetky z nich.
Takže, pretože to je konštanta, môžeme len pokles to a nezaujíma o to.
Takže to bude skutočne rovnice hľadáme.
>> A ak mám viac slov, som ešte bude mať pred
pravdepodobnosť tu.
Jediná vec je, že som násobenie pravdepodobnosť
všetky ostatné slová.
Takže som vynásobením všetky z nich.
Zmysel?
Vyzerá to divne, ale v podstate znamená, výpočet predchádzajúcej triedy, a
potom násobiť pravdepodobnosťou každého slov je v tejto triede.
>> A viete, že pravdepodobnosť Slovo vzhľadom trieda bude
koľkokrát vidíte, že slovo že trieda, delená počtom
slová, máte v tom, že trieda všeobecne.
Zmysel?
It to, ako "Baby" bola 2 Použite počet slov, ktoré
Mal som v texte.
Takže len frekvencie.
>> Ale je tu jedna vec.
Spomínam si, ako som sa o tom, že pravdepodobnosť "Baby" bytia texty
od Katy Perry 0. len preto, že Katy Perry nemal "dieťa" vôbec?
Ale znie to trochu krutý len jednoducho povedať, že texty nemôžu byť z
umelec len preto, že nemajú tento výraz najmä kedykoľvek.
>> Takže ste mohli len povedať, dobre, ak nemajú slovo, budem
vám nižšia pravdepodobnosť, ale ja jednoducho nebude
vám 0. hneď.
Vzhľadom k tomu, možno to bolo niečo ako, "Oheň, oheň, oheň, oheň," ktorý je
úplne Katy Perry.
A potom "dieťa", a to len dokazuje, 0 hneď, pretože tam bol jeden
"Dieťa."
>> Takže v podstate to, čo robíme, je niečo, čo tzv Laplace vyhladzovania.
A to len znamená, že dávam určitou pravdepodobnosťou aj slov
že neexistujú.
Takže to, čo robím, je, že keď som výpočte to, vždy som pridať 1 až
čitateľ.
Takže aj keď slovo neexistuje, v V tomto prípade, ak je to 0, som stále
výpočet toto ako jeden cez Celkový počet slov.
Inak som si, koľko slov Mám a som pridať 1 ks.
Takže som počítal pre oba prípady.
Zmysel?
>> Takže teraz poďme urobiť nejaké kódovanie.
Budem musieť urobiť to celkom rýchlo, ale to je len dôležité, aby vám
chlapci pochopiť koncepty.
Takže to, čo sa snažíme robiť je presne realizovať tento
vec, ktorú som práve povedal -
Chcem vám dať texty od Lady Gaga a Katy Perry.
A program sa bude môcť povedať, či tieto nové texty sú od Gaga
alebo Katy Perry.
Zmysel?
OK.
>> Tak som si tento program Idem volať classify.py.
Tak toto je Python.
Je to nový programovací jazyk.
To je veľmi podobné v niektorých spôsoby, ako C a PHP.
Je to podobné, pretože ak chcete učiť Python po poznať C, je to
naozaj nie je, že veľkú výzvu len preto, že Python je oveľa jednoduchšie
ako C, v prvom rade.
A veľa vecí sa už implementovaný pre vás.
Tak, ako ako PHP má funkcie, ktoré zoradiť zoznam, alebo pridať niečo
na pole, alebo bla, bla, bla.
Python má všetky tie, ktoré sú dobre.
>> Tak som len tak vysvetliť rýchlo ako by sme mohli urobiť klasifikáciu
problém tu.
Takže povedzme, že v tomto prípade mám texty z Gaga a Katy Perry.
Spôsobom, že mám tie texty, je, že prvé slovo texte je
meno umelca, a zvyšok je text.
Takže povedzme, že mám tento zoznam v ktorých prvý je text od Gaga.
Tak tu som na správnej ceste.
A ďalší je Katy, a má tiež texty.
>> Tak to je, ako deklarovať premenná v Pythone.
Nemusíte dávať dátový typ.
Stačí napísať "texty" Niečo ako v PHP.
Zmysel?
>> Takže aké sú veci, ktoré som sa vypočítať, aby bolo možné vypočítať
pravdepodobnosti?
Musím vypočítať "priors" každého iný
triedy, ktoré mám.
Musím vypočítať "distálny", alebo do značnej miery pravdepodobnosti
každého z rôznych slov, ktoré Môžem mať pre každého umelca.
Takže v rámci Gaga, napríklad, ja idem mať zoznam koľkokrát vidím
každý zo slov.
Zmysel?
>> A nakoniec, ja len budem musieť Zoznam s názvom "slová", ktorá sa práve chystá
mať, koľko slov som mať pre každého umelca.
Takže pre Gaga, napríklad, keď sa pozriem k textu, som, myslím, 24
Slová celkom.
Takže tento zoznam je len bude mať Gaga 24, a Katy iné číslo.
Zmysel?
OK.
>> Takže teraz, vlastne, poďme ísť na kódovanie.
Takže v Pythone, môžete skutočne návrat na veľa rôznych
veci z funkcie.
Takže idem vytvoriť túto funkciu tzv "podmienené", ktorý sa bude
vrátiť všetky tie veci, "Priors," že "pravdepodobnosť", a
"Slová." Takže "podmienené", a to je bude volať do "texty."
>> Takže teraz chcem, aby ste skutočne napísať túto funkciu.
Takže spôsob, že môžem napísať tento funkcie som definovala
fungovať s "def." Tak som to urobil "def podmienené ", a to pri
"Texty." A čo to bude robiť je, v prvom rade, mám priors
že chcem počítať.
>> Takže spôsob, ako to môžem urobiť, je vytvoriť slovník v jazyku Python, ktorý
je skoro to isté ako hash stôl, alebo je to ako iteratívny
polia v PHP.
To je, ako Prehlasujem slovník.
A v podstate to, čo to znamená, že priors Gaga je 0,5, napríklad v prípade,
50% z textov sú z Gaga, 50% sú od Katy.
Zmysel?
Tak som sa prísť na to, ako pre výpočet priors.
>> Budúci tie, ktoré musím urobiť, i, sú pravdepodobnosti a slová.
Takže pravdepodobnosť Gaga je zoznam zo všetkých pravdepodobnosťou, že som
sa pre každý zo slov pre Gaga.
Takže keď idem na pravdepodobnosti Gaga "Dieťa", napríklad, že to mi
niečo ako 2 v priebehu 24 v tomto prípade.
Zmysel?
Tak ja idem na "pravdepodobnosť", prejdite ku "Gaga" vedierko, ktorý má zoznam všetkých
slová Gaga, potom idem na "dieťa," a vidím pravdepodobnosť.
>> A nakoniec som si to "Slová" slovník.
Tu teda, "pravdepodobnosti." A potom "Slová." Takže keď som to "slovo", "Gaga",
čo sa stane, je, že je to mi dáš 24, hovorí, že som
má 24 slov v textoch z Gaga.
Dáva to zmysel?
Tak tu, "slová" rovná Dah-Dah-DAH.
OK
>> Takže, čo budem robiť, je budem iterácii každý z textov, tak
každý z reťazcov, ktoré Mám v zozname.
A budem počítať tie veci pre každý z kandidátov.
Dáva to zmysel?
Takže musím urobiť pre sláčiky.
>> Takže v Pythone, čo môžem urobiť, je "pre linku v textoch. "to isté ako
"Pre každý" vyhlásenie v PHP.
Spomínam si, ako keby to bolo PHP som mohol povedať: "pre každý text ako
linka. "Dáva to zmysel?
Takže beriem každý z riadkov, v tomto prípad, tento reťazec a ďalšie
reťazec, takže pre každú z liniek, čo som robiť, je prvý, budem
rozdeliť tento riadok v zozname slov oddelených medzerami.
>> Takže super vec o Pythone je, že môžete len Google, ako je "Ako môžem
rozdeliť reťazec do slov? "A je to ti povedať, ako to urobiť.
A spôsob, ako to urobiť, je to len "linka = Line.split () "a je to v podstate
dám vám zoznam s každý zo slov tu.
Dáva to zmysel?
Takže teraz, že som to urobil, že chcem vedieť, kto je speváčka tejto piesne.
A k tomu, že som sa dostať Prvý prvok poľa, nie?
Takže môžem len povedať, že som "spevák = Linka (0) "Dáva to zmysel?
>> A to, čo musím urobiť, potom je prvá všetci, budem aktualizovať, koľko
slová, ktoré som si pod "Gaga". takže som len bude počítať, koľko slov som
majú v tomto zozname, nie?
Pretože to je to, koľko slov mám v slovách a ja len tak
pridať do "Gaga" pole.
Má to zmysel?
Nepoužívajte príliš sústredí na syntax.
Premýšľajte viac o pojmy.
To je tá najdôležitejšia časť.
OK.
>> Takže to, čo som si to, ak je "Gaga" je Už v tomto zozname, tak "ak spevák
slová ", čo znamená, že som sa už majú slová by Gaga.
Chcem len pridať ďalšie slová, že.
Takže to, čo robím, je "slová (spevák) + = Ľan (line) - 1 ".
A potom som si len urobiť dĺžka vedenia.
Tak koľko prvkov Aj sa v poli.
A musím urobiť mínus 1 len preto, že Prvý prvok poľa je len
spevák a tie nie sú texty.
Dáva to zmysel?
OK.
>> "Inak," znamená to, že chcem, aby skutočne vložiť Gaga do zoznamu.
Tak som jednoducho "slová (spevák) = Ľan (line) - 1, "Ospravedlňujem sa.
Takže jediný rozdiel medzi týmito dvoma vedenia je, že táto jedna, to nie je
doteraz neexistujú, a tak som len inicializáciu.
Tenhle som vlastne pridať.
OK.
Takže to bolo pridaním slov.
>> Teraz chcem pridať Vierozvestcov.
Tak ako to mám vypočítať priors?
Vierozvestci možno vypočítať podľa toho, ako koľkokrát.
Takže koľkokrát vidíte, že spevák medzi všetkými, ktoré ste spevákov
mať, že jo?
Takže pre Gaga a Katy Perry, v tomto prípade vidím Gaga
raz, Katy Perry raz.
>> Takže v podstate sa priors pre Gaga a pre Katy Perry by
byť len jeden, nie?
Práve ste koľkokrát Vidím umelca.
Tak to je veľmi ľahké vypočítať.
Môžem len niečo podobné ako ako "ak spevák v priors, "Idem
pridať 1 až ich Priors poľa.
Takže, "priors (spievať)" + = 1 "a potom" iný " Budem robiť, "priors (spevák)
= 1. "Dáva to zmysel?
>> Takže ak to neexistuje, len som dal ako 1, inak som len pridať 1 ks.
OK, tak teraz všetko, čo som odišiel robiť je tiež pridať každý z slov
pravdepodobnosti.
Takže mám počítať, koľkokrát Vidím každý zo slov.
Tak som jednoducho musel urobiť ďalšie pre slučku v rade.
>> Takže prvá vec, ktorú budem robiť, je skontrolujte, či speváčka už má
pravdepodobnosti poľa.
Takže som kontrolovať, či spevák nie je majú pravdepodobnosti pole, ja som len
bude inicializovať jeden pre nich.
Nie je to ani poľa, je mi ľúto, je to slovník.
Takže pravdepodobnosť speváka sa deje byť otvorený slovník, takže som
len inicializácii slovník neho.
OK?
>> A teraz môže skutočne urobiť pre sláčiky pre výpočet každej zo slov "
pravdepodobnosti.
OK.
Takže to, čo môžem urobiť, je pre sláčiky.
Tak som len tak iterácii cez pole.
Takže tak, že to môžem urobiť v Pythone je "for i in range." Od 1.
pretože chcem začať v druhej element, pretože prvý z nich je
Názov spevák.
Takže z jedného do dĺžka vedenia.
A keď som sa pohybujú v skutočnosti ísť od ako tu od 1 do ľan z
linka mínus 1.
Tak to už robí tú vec robiť n mínus 1 pre pole, ktoré je veľmi
pohodlné.
Dáva to zmysel?
>> Takže pre každého z nich, čo budem urobiť, je, rovnako ako v druhej,
Idem zistiť, či slovo v tomto pozície v rade je už v
pravdepodobnosti.
A potom, keď som povedal tu, pravdepodobnosti slová, ako v dal som
"Pravdepodobnosti (spevák)".
Takže meno speváka.
Takže ak je to už v roku "Probability (spevák)", znamená to, že som
Chcete pridať 1 k nemu, takže budem robiť, "pravdepodobnosti (spevák)" a
Slovo sa nazýva "linka (i)".
Chystám sa pridať 1 a "iný" Som len bude inicializovať na hodnotu 1.
"Linka (i)".
Dáva to zmysel?
>> Tak, Aj vypočítaná všetkých polí.
Takže teraz všetko, čo mám urobiť pre toto je jednoducho "vrátiť priors,
pravdepodobnosti a slová. "Poďme zistiť, či existujú nejaké, OK.
Zdá sa, že všetko funguje tak ďaleko.
Tak, to dáva zmysel?
V nejakým spôsobom?
OK.
Takže teraz mám všetky pravdepodobnosti.
Takže teraz to jediné, čo mi zostalo je len mať tú vec, že
vypočíta súčin všetkých Pravdepodobnosti, keď som si texty.
>> Takže povedzme, že chcem, aby sa zavolať Táto funkcia "klasifikácia ()" a
vec, ktorá funkcia má je len argumentom.
Povedzme, že "Baby, som na oheň" a je to bude zistiť, čo je
pravdepodobnosť, že je to Gaga?
Aká je pravdepodobnosť, že je to Katie?
Znie to dobre?
Takže som jednoducho musieť vytvoriť nová funkcia s názvom "klasifikácie ()" a
že to bude trvať nejaký texty rovnako.
A okrem textov aj ja musieť poslať priors,
pravdepodobnosti a slová.
Takže budem posielať texty, priors, pravdepodobnosť, slová.
>> Takže je to s textami, priors, pravdepodobnosť, slová.
Takže, čo to robí?
Je to v podstate sa chystá prejsť všetky možných kandidátov, ktoré ste
mať ako spevák.
A kde sú tie kandidátmi?
Sú v priors, že jo?
Tak som si všetky tie tam.
Takže budem mať slovník zo všetkých možných kandidátov.
A potom pre každého kandidáta v priors, tak to znamená, že to bude
bude Gaga, Katie, keby som mal viac, že to bude viac.
Chystám sa začať výpočtu táto pravdepodobnosť.
Pravdepodobnosť, ako sme videli v PowerPoint je skoršie časy
produkt každého ďalšie pravdepodobnosti.
>> Tak som si to tu isté.
Môžem len to, pravdepodobnosť je spočiatku len pred.
Takže priors kandidáta.
Je to tak?
A teraz mám pre iteráciu cez všetky slová, ktoré mám v texte sa
možné pridať pravdepodobnosť pre každú z nich, OK?
Takže, "slová v textoch" čo budem k tomu je, ak je slovo v
"Pravdepodobnosti (kandidátskych)", ktoré Znamená to, že je to slovo, ktoré
kandidát má vo svojich textoch -
Napríklad, "dieťa" pre Gaga -
čo budem robiť, je to, že pravdepodobnosť sa bude násobiť
o 1 a pravdepodobnosti na kandidát na toto slovo.
A volá sa "slovo".
Tento delený počtom slov že mám pre tohto kandidáta.
Celkový počet slov, ktoré mám pre speváka, ktorý som pri pohľade na.
>> "Else". to znamená, že je nové slovo tak to by bolo, ako napríklad
"Oheň" pre Lady Gaga.
Takže chcem len urobiť jeden cez "Slovo (kandidát)".
Takže nechcem, aby tento termín tu.
>> Takže to bude v podstate kopírovanie a vkladanie toto.
Ale ja idem zmazať túto časť.
Takže je to len bude 1 cez to.
Znie to dobre?
A teraz na konci, ja len tak vytlačiť meno kandidáta a
pravdepodobnosť, že budete mať z má S na svojich textoch.
Dáva to zmysel?
A ja vlastne ani nemám je potrebné tento slovník.
Dáva to zmysel?
>> Takže, poďme zistiť, či to skutočne funguje.
Takže keď som spustiť to, sa to nebude fungovať.
Počkajte jednu sekundu.
"Slová (kandidátskych)", "slová (kandidátskych)", to je
názov poľa.
OK Tak, to hovorí, že je to nejaký bug pre kandidáta na priors.
Dovoľte mi len chill trochu.
OK.
Poďme to skúsiť.
OK.
>> Tak to dáva Katy Perry má tento pravdepodobnosť, že tento násobok 10 na
mínus 7, a Gaga má tento krát 10 na mínus 6.
Takže vidíte, že ukazuje, že Gaga má vyššiu pravdepodobnosť.
Takže "Miláčik, ja som na Fire" je pravdepodobne Gaga pieseň.
Dáva to zmysel?
Takže to je to, čo sme urobili.
>> Tento kód sa bude vyslaný on-line, takže vy môžete pozrieť.
Možno, že použitie niektoré z nich, ak si chcete urobiť projekt, alebo niečo podobné.
OK.
To bolo len ukázať, Čo výpočtovej
lingvistika kód vyzerá.
Ale teraz poďme k ďalšej Vysoká úroveň veci.
OK.
>> Takže ďalšie problémy som hovoril o -
problém segmentácia je prvá z nich.
Takže máte tú japončinu.
A potom vidíte, že nie sú tam žiadne medzery.
Takže je to v podstate znamená, že je horné stoličky, nie?
Môžete hovoriť japonsky?
Je to najvyššia zo stoličky, že jo?
>> STUDENT: Neviem, čo kanji tam je.
>> LUCAS FREITAS: Je to [HOVORIACI japonský]
OK.
Takže to v podstate znamená, že predsedníctvo vrchole.
Takže ak by ste mali dať priestor to bude tu.
A potom máte [? Ueda-san. ?]
Čo v podstate znamená, že pán Ueda.
A vidíte, že "Ueda" a máte priestor a potom sa "san". Takže vidíte, že
tu "Ue" je ako sama o sebe.
A tu je má charakter vedľa nej.
>> Takže to nie je ako v tých jazykoch znaky, čo znamená slovo to, aby vám
stačí dať veľa priestoru.
Postavy sa vzťahujú ku každému iný.
A môžu byť spolu ako dve, tri, jeden.
Takže ste skutočne vytvoriť nejaký o spôsob, ako dať tieto priestory.
>> A to je to, že vždy, keď sa dostanete Údaje z týchto ázijských jazykov,
všetko, čo príde unsegmented.
Pretože nikto, kto píše japonsky alebo čínske píše s medzerami.
Kedykoľvek budete písať čínsky, Japonská stačí napísať všetko
bez medzier.
To nemá ani zmysel dať priestor.
Takže, keď sa dostanete dáta z niektorej Východnej Ázie jazyk, ak chcete
skutočne niečo urobiť s tým musíte segmente ako prvý.
>> Zamyslite sa *** tým na príklad texty bez medzier.
Takže iba texty, ktoré majú Bude vety, nie?
Oddelených bodkami.
Ale potom majú len trest bude nie je naozaj pomôcť na to, aby informácie
kto tie texty sú o
Je to tak?
Takže by ste mali stavia prvej medzery.
Tak ako môžete robiť, že?
>> Takže potom príde myšlienka jazyka model, ktorý je niečo, čo naozaj
dôležité pre výpočtovú lingvistika.
Takže jazykový model je v podstate tabuľka pravdepodobnosťou, že ukazuje
v prvom rade to, čo je pravdepodobnosť mať slovo v jazyku?
Tak ukazuje, ako často je slovo.
A potom tiež ukazuje vzťah medzi slovami vo vete.
>> Takže hlavnou myšlienkou je, že ak cudzinec prišiel pre vás a povedal vetu
si, aká je pravdepodobnosť, že pre napríklad, "toto je moja sestra [? GTF"?]
bola veta, že človek hovorí?
Takže samozrejme niektoré vety sú častejšie ako iné.
Napríklad, "dobré ráno" alebo "dobrý noc, "alebo" hej tam, "je oveľa viac
časté než väčšina viet že máme angličtinu.
Tak prečo sú tie tresty častejšie?
>> Po prvé, je to preto, že máte slová, ktoré sú častejšie.
Tak, napríklad, keď poviete, že pes je veľký, a pes je obrovský, môžete
zvyčajne asi počuť pes je veľký častejšie, pretože "veľká" je viac
často v angličtine, ako "gigantický". Takže jeden z
čo je slovo frekvencie.
>> Druhá vec, ktorá je naozaj Dôležitá je len
Poradie slov.
Tak, to je bežné hovoriť "mačka je vnútri škatule. ", ale tie nie sú obvykle
pozri v "krabici vo vnútri je mačka." tak Vidíte, že tam je nejaký význam
v poradí slov.
Nemôžete len tak povedať, že tí dvaja vety majú rovnakú pravdepodobnosť
len preto, že majú rovnaké slová.
V skutočnosti musíte starať o poradí rovnako.
Zmysel?
>> Tak čo budeme robiť?
Takže to, čo som mohol pokúsiť dostať vás?
Snažím sa vám to, čo sme zavolajte modely n-gram.
Takže n-gramové modely v podstate predpokladá, že pre každé slovo, ktoré
máte vo vete.
Je to pravdepodobnosť, že mať Slovo tu závisí nielen na
Frekvencia tohto slova v jazyku, ale tiež na slová, ktoré
sa ho obklopuje.
>> Tak napríklad, zvyčajne, keď vidíte, niečo ako na, alebo na ty si
pravdepodobne bude vidieť podstatné meno po ňom, nie?
Vzhľadom k tomu, keď máte predložku Zvyčajne to trvá podstatné meno po ňom.
Alebo ak máte sloveso, ktoré je tranzitívne zvyčajne sa chystáte
majú mennú frázu.
Takže to bude mať podstatné meno niekde okolo neho.
>> Takže, v podstate, čo to urobí, je, že sa domnieva, že pravdepodobnosť, že bude
slová vedľa seba, keď ste výpočtu
pravdepodobnosť vety.
A to je to, čo o jazyk, model je v podstate.
Len hovorím, čo je pravdepodobnosť, mať špecifický
veta v jazyku?
Tak prečo je to užitočné, v podstate?
A v prvom rade to, čo je Model n-gram, potom?
>> Takže modelu n-gram znamená, že každé slovo je závislá na
ďalšie N mínus 1 slov.
Takže, v podstate, to znamená, že ak sa pozriem, napríklad na CS50 TF pri
Ja výpočet pravdepodobnosti veta, budete mať ako "
pravdepodobnosť, že bude slovo "" krát pravdepodobnosť, že bude "
CS50 "krát pravdepodobnosť, že bude "CS50 TF." Takže v podstate som počítať
všetky možné spôsoby naťahovať to.
>> A potom sa zvyčajne, keď robíte to, ako v projekte, dáte N sa
nízka hodnota.
Takže, zvyčajne bigrams alebo trigramov.
Takže stačí počítať dve slovami, skupina dvoch slov, alebo troch slov,
len za funkčné problémy.
A tiež preto, že možno máte ak niečo ako "The CS50 TF." Keď
majú "TF", to je veľmi dôležité, aby "CS50" je vedľa nej, že jo?
Tieto dve veci sú zvyčajne vedľa seba.
>> Ak si myslíte, že "TF", to je asi bude mať to, čo
Trieda je to TF'ing pre.
Tiež "" je veľmi dôležité, pre CS50 TF.
Ale ak máte niečo ako "The CS50 TF šiel do triedy a dal ich
Študenti nejaký cukrík. "" Candy "a" " nemajú žiadny vzťah naozaj, že jo?
Sú tak ďaleko od seba, že to nie je naozaj jedno, čo
Slová máte.
>> Takže tým, že robí bigram alebo trigram, že jednoducho znamená, že ste obmedzení
sami na niektorých slov ktoré sú v okolí.
Zmysel?
Takže ak chcete urobiť segmentácie, v podstate, čo chcete urobiť, je vidieť
aké sú všetky možné spôsoby, ako môžete segmentu vetu.
>> Taký, že vidíte, čo je pravdepodobnosť, že každé z týchto viet
existujúce v jazyku?
Takže to, čo robíte, je rád, dobre, nech me sa snaží dať priestor tu.
Tak si dal priestor tu a uvidíte, čo je
pravdepodobnosť tejto vety?
Potom ste ako, OK, možno že to nie je tak dobré.
Tak som dal priestor tam a priestor tam, a vypočítať
pravdepodobnosť teraz, a uvidíte, že je vyššia pravdepodobnosť.
>> Tak toto je algoritmus s názvom TANGO segmentácia algoritmus, ktorý je
vlastne niečo, čo by bolo naozaj v pohode pre projekt, ktorý
v podstate sa unsegmented text, ktorý môžu byť japonskej alebo čínskej, alebo možno
Anglicky bez medzier a snaží sa dať medzery medzi slovami a to robí
že pomocou jazyka modelu a sa snažia zistiť, čo je najvyššia
Pravdepodobnosť môžete dostať.
OK.
Tak toto je segmentácia.
>> Teraz syntaxe.
Takže, syntax je používaný pre toľko vecí, práve teraz.
Takže Graf vyhľadávania, pre Siri pre skoro akýkoľvek druh prírodnej
spracovanie jazyka, ktorý máte.
Takže to, čo je dôležité veci, o syntax?
Takže, vety majú všeobecne čo nazývame zložky.
Aké sú niečo ako skupiny slov ktoré majú funkciu vo vete.
A nemôžu byť naozaj od seba.
>> Takže, keď poviem, napríklad, "Lauren miluje Milo. "Ja viem, že" Lauren "je
zložka a potom "lásky Milo "je tiež iný.
Vzhľadom k tomu, nemôžete povedať, ako "Lauren Milo miluje "majú rovnaký význam.
Nebude to mať rovnaký význam.
Alebo Nemôžem povedať, že ako "Milo Lauren miluje. "Nie všetko, čo má rovnaký
čo znamená, robiť, že.
>> Takže dve ďalšie dôležité veci, o Syntax sú lexikálne typy, ktoré je
v podstate funkcia, ktorá vám majú slová sami.
Takže musíte vedieť, že "Lauren" a "Milo" sú podstatné mená.
"Láska" je sloveso.
A druhá dôležitá vec je, že sú frázové typy.
Takže viete, že "miluje Milo" je vlastne slovné frázy.
Takže keď hovorím "Lauren," ja viem, že Lauren sa niečo robiť.
Čo to robí?
Ona je milujúci Milo.
Tak to je celá vec.
Ale jeho komponenty sú podstatné meno a sloveso.
Ale dohromady, robia sloveso frázu.
>> Takže, čo môžeme skutočne urobiť s počítačová lingvistika?
Takže, keď mám niečo, čo napríklad "Priatelia Allison." Vidím, či som
sa syntaktický strom by som vedieť, že "Priatelia" je vzťahujú údaje frázy je
podstatné meno a potom "Allison" je predložkové frázy, v ktorých "z" je
návrh a "Allison" je podstatné meno.
To, čo som mohol urobiť, je naučiť počítač že keď mám vzťahujú údaje frázy jedno a
potom predložkové frázy.
Takže v tomto prípade, "priatelia" a potom "z Milo "Ja viem, že to znamená, že
NP2, druhá, vlastné NP1.
>> Tak som sa vytvoriť nejaký vzťah, nejaká funkcia pre ňu.
Takže keď vidím túto štruktúru, ktorá zodpovedá presne s "priateľmi
Allison, "ja viem, že Allison vlastné priateľov.
Takže priatelia sú niečo, že Allison má.
Dáva to zmysel?
Tak to je v podstate to, čo Graf Search robí.
Je to len vytvára pravidlá na veľa vecí.
Takže "priatelia Allison", "moji priatelia ktorí žijú v Cambridge, "" svojim priateľom
ktorí idú na Harvarde. "Vytvára pravidlá pre všetky tie veci.
>> Teraz strojový preklad.
Takže, strojový preklad, je tiež niečo štatistické.
A skutočne, ak ste sa zapojili do počítačová lingvistika, veľa
vaše veci bude štatistika.
Takže ako som robil príklad s veľa pravdepodobnosťou, že som bol
výpočtu, a potom sa dostanete k tomu veľmi malé číslo, ktoré je konečné
pravdepodobnosť, a to je to, čo vám dáva odpoveď.
Strojový preklad tiež používa štatistický model.
A ak chcete myslieť na stroji preklad v najjednoduchšie
Mimochodom, čo si môžete myslieť, je len prekladať slovo od slova, že jo?
>> Keď sa učíte jazyk pre Prvýkrát, to je zvyčajne to, čo
vy, že jo?
Ak chcete, môžete preložiť vetu vo vašom jazyku do jazyka
učíte, zvyčajne ako prvé, preložiť každý zo slov
individuálne, a potom skúste dať slová na miesto.
>> Takže keď som chcel, aby to preložiť, [HOVORIACI portugalský]
, Čo znamená "biela mačka utiekla." Ak by som to chcel preložiť z
Portugalčina do angličtiny, to, čo som mohol urobiť, je, ako prvá, len som
prekladať slovo od slova.
Takže "o" je "," "gato", "mačka", "Branco", "biela", a potom "Fugi" je
"Utiekol."
>> Tak som si všetky slová tu, ale to nie je v poriadku.
Je to ako "mačka biela utiekol" ktorý je ungrammatical.
Takže, potom môžem mať druhý krok, ktorý sa bude nájsť ideálne
pozície pre každý zo slov.
Takže viem, že som vlastne chcem mať "Biely kocúr" namiesto "mačka biely." Tak
čo môžem urobiť, je, najviac naivný metódu by bolo vytvoriť všetky
možné permutácie slová, pozícií.
A potom zistiť, ktorý z nich má Najvyššia pravdepodobnosť podľa
do môjho jazyka modelu.
A potom, keď som sa nájsť ten, ktorý má najvyššiu pravdepodobnosť, že, ktorý je
pravdepodobne "biely kocúr utiekol," to je môj preklad.
>> A to je jednoduchý spôsob, ako vysvetliť ako veľa strojového prekladu
algoritmy pracujú.
Má to zmysel?
To je tiež niečo, čo naozaj vzrušujúce že vy môžete možná prieskum
Konečný projekt, jo?
>> STUDENT: No, hovoril, že to bolo naivný spôsob, takže to, čo je
non-naivný cesta?
>> LUCAS FREITAS: non-naivný cesta?
OK.
Takže prvá vec, ktorá je zlé na tom, táto metóda je, že som preložil
slová, slovo od slova.
Ale niekedy budete musieť slová, ktoré môže mať viac prekladov.
Budem sa snažiť myslieť niečo.
Napríklad, "manga" v portugalskej plechovke buď "mangeľ" alebo "rukáv". Tak
keď sa snažíte preložiť slovo slovom, to by mohlo byť, že vám
niečo, čo nedáva zmysel.
>> Takže vy vlastne chcete, aby sa pozriete na všetky možné preklady
slová a vidieť, v prvom rade, čo je rozkaz.
Rozprávali sme si o permutating veci?
Ak chcete zobraziť všetky možné príkazy a vybrať ten s najvyššou
pravdepodobnosť?
Môžete si tiež vybrať všetky možné preklady pre každého
slovo a potom uvidíme -
v kombinácii s permutácií -
, Ktorý z nich má najvyššiu pravdepodobnosť.
>> Plus, môžete sa tiež pozrieť na to len slová, ale vety.
takže môžete analyzovať vzťahy medzi slová a potom sa
lepší preklad.
Tiež niečo iné, tak tento semester Ja som vlastne robil výskum v
Čínsko-anglický strojový preklad, takže prekladanie z
Čínska do angličtiny.
>> A niečo, čo robíme, je, okrem použitia štatistický model, ktorý je práve
vidieť pravdepodobnosťou vidieť niektoré pozície vo vete, že som
vlastne tiež pridať nejakú syntax my Model, riekol: Ach, keď vidím tento druh
výstavby, to je to, čo chcem to zmeniť, keď som sa prekladať.
Takže môžete tiež pridať nejaký prvok syntaxe, aby
Preklad účinnejšie a presnejšie.
OK.
>> Tak ako môžete začať, ak chcete robiť niečo vo výpočtovej
lingvistika?
>> Najprv si vyberiete projekt , Ktorá sa týka jazykov.
Takže, tam je tak veľa tam vonku.
Je tu toľko vecí, ktoré môžete urobiť.
A potom môžete premýšľať o modeli ktoré môžete použiť.
Zvyčajne to znamená, že myslenie predpoklady, as ako, oh, keď som bol
ako myslenie textu.
Bol som rád, dobre, či chcem prísť out, ktorý to napísal, asi chcem
pozrieť sa na slová, osoba používa a zistiť, kto používa toto slovo veľmi často.
Takže sa snažia, aby predpoklady a skúste sa zamyslieť modelov.
A potom sa môžete tiež vyhľadať online druh problému, ktorý máte,
a bude to o tom, aby vás modely, ktoré možno
modelovať tú vec dobre.
>> A tiež môžete vždy napíšte mi.
me@lfreitas.com.
A môžem len odpovedať na vaše otázky.
Môžeme dokonca mohli stretnúť, takže môžem dávať návrhy na spôsoby
realizáciu projektu.
A mám na mysli, keď sa zapojiť do počítačová lingvistika, že to bude
byť skvelý.
Budeš vidieť, že je tak veľký potenciál.
A priemysel chce najať ste tak zlé, pretože to.
Takže dúfam, že vy užil toto.
Ak vy máte nejaké otázky, môžete ma požiadať po tomto.
Ale ďakujem.