Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Ahoj. Vítame každého. Moje meno je Lucas Freitas. Som junior na [nepočuteľný] štúdium výpočtová technika so zameraním na počítačová lingvistika. Takže moje sekundárne je v jazyku a lingvistické teórie. Som naozaj ***šený, že učiť vás chlapci niečo málo o tejto oblasti. Je to veľmi vzrušujúce priestor k štúdiu. Tiež s veľkým potenciálom pre budúcnosť. Takže som naozaj ***šená, že vy uvažujete o projekty v počítačová lingvistika. A ja budem viac než rád poradí niekto z vás, či sa rozhodnete sledujú jeden z nich. >> Takže v prvom rade to, čo je výpočtový lingvistika? Takže počítačová lingvistika je Priesečník medzi lingvistiky a počítačová veda. Takže, čo je lingvistika? Čo je to počítačová veda? No z lingvistiky, čo Vezmeme sú jazyky. Takže lingvistika je vlastne štúdium prirodzeného jazyka všeobecne. Takže prirodzený jazyk - hovoríme o jazyk, ktorý sme vlastne použiť na vzájomne komunikovať. Takže sme zrovna hovorí o C alebo Java. Hovoríme viac o angličtine a Číňania a ďalšie jazyky, ktoré sme používajú na komunikáciu medzi sebou navzájom. >> Náročná vec, o to je to, že teraz máme takmer 7000 jazykov na svete. Takže existuje pomerne vysoká odroda jazykov, ktoré môžeme študovať. A potom si myslím, že je to pravdepodobne veľmi ťažké urobiť, napríklad, preklad z jedného jazyka do iné, za to, že máte takmer 7000 z nich. Takže, ak si myslíte, že robíte preklad z jedného jazyka do druhého si majú takmer viac ako milión rôzne kombinácie, ktoré môžete sa od jazyka k jazyku. Takže je to naozaj náročné urobiť nejaké druh príklad preklade systému každý jazyk. >> Takže, lingvistika zaobchádza s syntaxou, sémantika, pragmatika. Vy nie práve potrebujete vedieť, čo sú. Ale veľmi zaujímavá vec je, že ako rodený hovorca, keď sa naučíte jazyk ako dieťa, vlastne učiť všetky tie veci - syntax sémantiky a pragmatika - sami. A nikto sa naučiť syntax pre aby ste pochopili, ako vety sú štruktúrované. Takže, je to naozaj zaujímavé, pretože je to niečo, čo je veľmi intuitívne. >> A čo berieš od počítačová veda? No, najdôležitejšia vec, ktorú by sme majú v informatike je prvá všetko, umelá inteligencia a strojové učenie. Takže to, čo sa snažíme robiť výpočtovej lingvistika je vyučovať váš počítač, ako niečo urobiť s jazykom. >> Tak, napríklad, v prístroji preklad. Snažím sa učiť môj počítač how vedieť, ako prejsť z jedného jazyka do druhého. Takže, v podstate rád učení počítačové dva jazyky. Ak sa mi spracovanie prirodzeného jazyka, čo je prípad napríklad Facebook je graf Vyhľadávanie, učíte počítač, ako porozumieť otázky dobre. >> Takže, keď poviete "fotografie z môjho priatelia. "Facebook nelieči, že ako celý reťazec, ktorý má len banda slov. Je to vlastne chápe vzťah medzi "fotky" a "moji priatelia" a chápe, že "fotky" sú vlastnosť "mojich priateľov." >> Tak, to je časť, napríklad, spracovanie prirodzeného jazyka. Snaží sa porozumieť tomu, čo je vzťah medzi slová vo vete. A veľká otázka je, môžete naučiť počítač, ako hovoriť jazyka všeobecne? Čo je veľmi zaujímavá otázka, myslím, ako by snáď v budúcnosti, budete mať možnosť poraďte sa so svojim mobilným telefónom. Niečo ako to, čo robíme s Siri, ale niečo ako, môžete skutočne hovoriť, čo chcete, a telefón bude rozumieť všetkému. A to môže mať nadväzujúce otázky a ďalej hovoriť. To je niečo, čo naozaj vzrušujúce, podľa môjho názoru. >> Takže, niečo o prirodzených jazykov. Niečo naozaj zaujímavé prirodzené jazyky je to, že, a to je úver na môj profesor lingvistiky, Maria Polinsky. Dáva príklad a myslím, že je to naozaj zaujímavé. Vzhľadom k tomu, učíme jazyk od okamihu, kedy sa narodíme a potom náš rodák Jazyk druh rastie na nás. >> A v podstate sa naučíte jazyk od minimálnej vstup, nie? Vy ste len dostať vstup z vášho rodičia o tom, čo váš jazyk zvuky páči a proste sa to naučiť. Takže, je to zaujímavé, pretože keď sa pozriete v týchto vetách, napríklad. Môžete sa pozrieť, "Mary stavia na kabát každej čas odíde z domu. " >> V tomto prípade je možné mať Slovo "to" sa vzťahujú k Márii, že jo? Môžete povedať: "Mary stavia na kabát zakaždým, keď opúšťa Mary dom. "tak, že je v poriadku. Ale potom keď sa pozriete na vete "Ona si vezme kabát zakaždým Mary opustí dom. "Vieš, že je to možné povedať, že "ona" je s odkazom na Máriu. >> Neexistuje žiadny spôsob, ako povedať, že "Mary kladie na kabát zakaždým Mary listy dom. "Tak to je zaujímavé, pretože toto je ten druh intuície že každý rodený hovorca má. A nikto sa učili, že je to tak, že syntaxe funguje. A to môžete mať len túto "ona" s odkazom na Máriu v tomto prvom prípade, a v skutočnosti v tejto inej taky, ale nie v tomto. Ale každý druh dostane na rovnakú odpoveď. Všetci sa zhodujú na tom. Tak to je naozaj zaujímavé, ako aj nepoznáte všetky pravidlá vo vašom jazyku tak nejako pochopiť, ako jazyk funguje. >> Takže zaujímavá vec, o prírodné jazyk, je, že nemusíte nepoznám syntax vedieť, či veta je gramatická alebo ungrammatical pre vo väčšine prípadov. Čo si myslím, že možno to, čo sa stane, je, že cez svojho života, budete len držať stále viac a viac vety povedal pre vás. A potom budete mať zapamätanie všetky viet. A potom, keď vám niekto povie, niečo, počujete vetu a sa pozeráte na svojho slovníka viet a zistiť, či že veta je tam. A ak je tam máte hovoria, že je to gramatický. Ak to nie je poviete, že je to ungrammatical. >> Takže v tomto prípade, by ste povedali, oh, takže máte obrovský zoznam všetkých Možné tresty. A potom, keď počujete vetu, Viete, či je to gramatický alebo nie je založený na tom. Vec je, že keď sa pozriete na vety, napríklad " päť v čele CS50 TFS varené slepého chobotnice pomocou daPa hrnček. "Je to rozhodne nie trest že ste počuli predtým. Ale zároveň viete, že je to skoro gramatické, že jo? Nie sú žiadne gramatické chyby a možno povedať, že je to možné trest. >> Tak to z nás robí si myslia, že v skutočnosti tak, že sa učíme jazyk nie je len tým, že má obrovskú databázu možný slová alebo vety, ale viac pochopenie vzťahu medzi Slová v týchto vetách. Má to zmysel? Takže potom je otázka, môže Počítače sa učia jazyky? Môžeme učiť jazyk počítača? >> Takže, poďme premýšľať o rozdiele medzi rodeným hovorcom jazyka a počítač. Takže, čo sa stane s reproduktora? No, rodený hovorca učí jazyk z expozície k nej. Obvykle jeho rané detstvo. Takže, v podstate, stačí mať dieťa, a stále hovoriť k nemu, a to len učia, ako hovoriť jazyk, nie? Takže, ste v podstate dáva vstup pre dieťa. Takže, potom môžete tvrdiť, že počítač môžete urobiť to isté, nie? Stačí si len dať JAZYKA ako vstup do počítača. >> Ako napríklad banda súborov ktoré majú knihy v angličtine. Možno, že je to jeden zo spôsobov, ktoré vám by sa mohla učiť počítač English, jo? A v skutočnosti, ak si myslíte, že o tom, to sa ti možno pár dni, čítať knihu. Na počítači to trvá sekundu pozrite sa na všetky slová v knihe. Takže si môžete myslieť, že môže byť len to Argument vstup z okolo vás, to nestačí povedať, že je to niečo, čo len človek môže robiť. Môžete si myslieť počítača môžu tiež získať vstup. >> Druhá vec je, že rodení hovorcovia tiež mozog, ktorý má schopnosť učenia sa jazyka. Ale ak si myslíte, že o tom, Mozog je solídny vec. Keď ste sa narodili, je to už nastavený - To je váš mozog. A ako vyrastieš, stačí si viac Vstup jazyka a možno živiny a ďalšie veci. Ale do značnej miery sa váš mozog je pevná vec. >> Takže môžete povedať, dobre, možno môžete postaviť počítač, ktorý má veľa funkcie a metódy, ktoré len napodobňujú schopnosť učenia sa jazyka. Takže v tomto zmysle, dalo by sa povedať, dobre, ja môže mať počítač, ktorý má všetky veci, ktoré som sa potrebujú naučiť jazyk. A posledná vec je, že natívny hovorca učia od pokusov a omylov. Takže v podstate ďalšia dôležitá vec jazykového vzdelávania je, že druh z naučiť veci tým, že zovšeobecnenie toho, čo počujete. >> Takže, ako ste vyrastal ste sa dozvedeli, že niektoré slová sú ako podstatné mená, niektoré ďalšie z nich sú adjektíva. A nemusíte mať akýkoľvek znalosť lingvistiky pochopiť, že. Ale jednoducho viem, že je niektorá slová sú umiestnené v určitej časti veta a niektoré ďalšie v iných časti vety. >> A že keď robíte niečo, čo je ako veta, že nie je správne - možno preto, že z viac ako generalizácie napríklad. Možno, keď ste vyrastal, si všimnete že množné číslo je zvyčajne tvoril tým, že by s pri koniec slova. A potom sa pokúsite urobiť množné "Jeleň" ako "jelene" alebo "zub" je "Zuba." Takže potom sa vaše rodičia, alebo niekto opraví a povie, nie, množné číslo "jeleň" je "jeleň", a množné "zub" je "zuby". A potom naučíte tie veci. Takže ste sa dozvedeli od pokusov a omylov. >> Ale môžete si tiež urobiť, že s počítačom. Môžete mať niečo, čo nazýva posilňované učenie. Čo je v podstate ako dávať Počítač odmena kedykoľvek to robí niečo správne. A dávať to opak odmenu a keď sa robí niečo zlé. Môžete skutočne vidieť, že keď idete do Google Translate a skúste preložiť vetu, že spýta sa vás, pre spätnú väzbu. Takže keď hovoríte, ach, tam je lepšie preklad pre túto vetu. Môžete zadajte ho a potom, ak veľa ľudia stále hovoria, že je lepšie preklad, to jednoducho zistí, že je to by sa namiesto použiť tento preklad kto to dával. >> Takže, je to veľmi filozofická otázka zistiť, či počítače sa bude schopný hovoriť, alebo nie v budúcnosti. Ale ja som si veľké nádeje, že môžu práve na základe týchto argumentov. Ale je to len viac filozofický otázka. >> Takže aj keď počítače stále nemôže hovoriť, aké sú veci, ktoré môžeme robiť? Niektoré naozaj cool veci sú klasifikácia dát. Tak, napríklad, vy viete, že e-mailové služby, áno, pre príklad, filtrovanie spamu. Takže zakaždým, keď dostanete spam, to sa snaží filtrovať na iné pole. Tak ako to robí, že? Nie je to tak, že počítač jednoducho vie, aké e-mailové adresy sú odosielanie spamu. Takže je to viac na základe obsahu správy, alebo možno titulu, alebo možno nejaký vzor, ktorý máte. >> Takže, v podstate, čo môžete urobiť, je dostať Mnoho údajov o e-maily, ktoré sú spam, e-maily, ktoré nie sú spam, a dozvedieť sa, čo druh vzorov máte v tie, ktoré sú spam. A toto je časť výpočtových lingvistika. Hovorí sa klasifikácie dát. A my vlastne uvidí príklad, že v najbližších snímok. >> Druhá vec je prirodzený jazyk spracovanie, čo je vec, ktorá sa Graf Hľadanie robí z nájmu môžete napísať vetu. A verí, že chápete, čo je zmysel a dáva Ste lepší výsledok. V skutočnosti, ak idete na Google alebo Bing a hľadať niečo ako dáma Výška Gaga, ste vlastne deje získať 5 '1 "namiesto informácií od nej, pretože to vlastne chápe čo hovoríš. Takže to je súčasťou prírodného spracovanie jazyka. >> Alebo tiež v prípade, že používate Siri, prvý Máte algoritmus, ktorý sa snaží prekladať, čo hovoríš do slov v texte. A potom sa snaží prekladať že na význame. Takže to všetko je súčasťou prírodnej spracovanie jazyka. >> Potom máte strojového prekladu - , Ktorý je v skutočnosti jedna z mojich obľúbených - ktorý je len preklad z jazyka do druhého. Takže si môžete myslieť, že keď robíte strojový preklad, máte nekonečné možnosti viet. Takže neexistuje žiadny spôsob, ako len ukladanie každý preklad. Takže budete musieť prísť s zaujímavý algoritmy, aby bolo možné prekladať každý veta nejakým spôsobom. >> Vy máte nejaké otázky tak ďaleko? Nie? OK. >> Takže to, čo budeme dnes vidieť? Po prvé, budem hovoriť o tom, Problém klasifikácie. Takže ten, že som bola hovorí o spamu. Čo budem robiť, je vzhľadom k tomu, Text skladby skladbu, môžete sa pokúsiť prísť na to, s vysokou pravdepodobnosťou kto je speváčka? Povedzme, že mám pesničky od Lady Gaga a Katy Perry, keby som vám nový song, môžete zistiť, či to je Katy Perry alebo Lady Gaga? >> Druhý, ja som len hovoriť o probléme segmentácie. Tak neviem, či vy viete, ale Čínština, japončina, ďalšie východnej Ázie jazyky a ďalšie jazyky všeobecne, nemajú medzery medzi slovami. A potom, ak si myslíte, že o tom, ako tejto počítač druhu pokusov na pochopiť, spracovanie prirodzeného jazyka, to vyzerá na slová a sa snaží pochopiť vzťahy medzi nimi, nie? Ale potom, ak máte čínsky, a majú nulové medzery, je to naozaj ťažké zistiť, aký je vzťah medzi slová, pretože nemajú žiadne slová na prvom mieste. Takže budete musieť urobiť niečo, čo nazýva segmentácia, ktorá jednoducho znamená uvedenie medzery medzi tým, čo by sme nazvali slová v týchto jazykoch. Zmysel? >> A potom budeme hovoriť o syntax. Takže len trochu o prírodné spracovanie jazyka. Bude to mať len prehľad. Takže dnes, v podstate to, čo chcem robiť, sa vám chlapci trochu vnútri, aké sú možnosti ktoré môžete robiť s výpočtových lingvistika. A potom vidíte, čo si myslíte je v pohode medzi týmito vecami. A možno, že si môžete myslieť o projekte a prísť so mnou hovoriť. A môžem vám poradiť o tom, ako to urobiť. >> Takže syntaxe bude trochu o Graf vyhľadávanie a stroje preklad. Idem dať príklad toho, ako môžete napríklad prekladať niečo z portugalčiny do angličtiny. Znie to dobre? >> Tak za prvé, problém klasifikácie. Poviem, že táto časť seminára bude najnáročnejšie jeden len preto, že sa deje byť niektoré kódovanie. Ale to bude Python. Viem, že vy neviete, Python, takže Idem vysvetliť na vysokej úrovni to, čo robím. A nemusíte sa naozaj záleží tiež veľa o syntax, pretože to je niečo, čo vy môžete naučiť. OK? To znie dobre. >> Tak v čom je problém klasifikácie? Takže vzhľadom k niektorej texty na pieseň, a chcete hádať ktorý je spievať. A to môže byť pre akýkoľvek druh ďalších problémov. Takže to môže byť, napríklad, máte prezidentská kampaň a máte reč, a chcete nájsť , Či je to, napríklad, Obama a Mitt Romney. Alebo môžete mať veľa e-mailov a Ak chcete zistiť, či sú spam alebo nie. Takže je to len klasifikácii niektorých Údaje založené na slová že ste tam. >> Takže to, že budete musieť vykonať niektoré predpoklady. Takže veľa o počítačovej lingvistiky robí predpokladov, zvyčajne inteligentný predpoklady, aby môžete získať dobré výsledky. Snažím sa vytvoriť model pre ňu. A potom sa to vyskúšať a zistiť, či to funguje, v prípade, že vám dáva dobrú presnosť. A ak áno, potom ste pokúsiť sa zlepšiť. Ak tomu tak nie je, budete rád, OK, možno som by mal iný predpoklad. >> Takže predpoklad, že budeme je to, že umelec sa zvyčajne spieva o téme niekoľkokrát, a možno používa slová niekoľkokrát len pretože sú na to zvyknutí. Stačí si len myslieť na svojho priateľa. Som si istý, chalani majú priateľov ktoré hovoria, ich podpis frázu, doslova pre každú vetu - ako nejaká konkrétne slová alebo niektorých špecifických frázy, ktoré hovoria, že pre každý trest. >> A to, čo môžem povedať, je, že keď vidíte vetu, ktorá má podpis frázy, môžete hádať, že pravdepodobne Váš priateľ je kto hovorí, že jo? Tak urobíte tento predpoklad a potom to, ako vytvoriť model. >> Príklad, že budem dávať je na ako Lady Gaga, napríklad, ľudia hovoria, že ona používa "dieťa" na všetky jej číslo jedna piesne. A v skutočnosti je to video, ktoré ukazuje, jej hovoriť slovo "dieťa" pre rôzne piesne. >> [PLAYBACK] >> - (SINGING) Detská. Dieťa. Dieťa. Dieťa. Dieťa. Babe. Dieťa. Dieťa. Dieťa. Dieťa. >> [END Videoprehrávanie- >> LUCAS FREITAS: Takže tam sú, myslím, 40 piesní tu v ktorom ona hovorí Slovo "dieťa." Takže si môžete v podstate hádať že keď vidíte skladbu, ktorá má slovo "dieťa", tam je nejaký vysoký pravdepodobnosť, že je to Lady Gaga. Ale skúsme sa na rozvoji tejto ďalej potom formálne. >> Takže sa jedná o texty k piesňam od Lady Gaga a Katy Perry. Takže sa pozriete na Lady Gaga, môžete vidia majú veľa výskytov "dieťa," Mnoho výskytov "spôsobom." A potom Katy Perry má mnoho výskytov "," Mnoho výskytov "ohňa." >> Takže v podstate to, čo chceme to znamená, že dostanete lyriku. Povedzme, že budete mať lyriku pre pieseň, ktorá je "dieťa" len "dieťa." Ak stačí si slovo "dieťa", a to je všetky dáta, ktoré ste od Lady Gaga a Katy Perry, ktorá by môžete hádať, je osoba, kto spieva pesničku? Lady Gaga alebo Katy Perry? Lady Gaga, že jo? Vzhľadom k tomu, že je jediný, kto hovorí, že "Dieťa." Znie to hlúpo, že jo? OK, je to naozaj jednoduché. Len sa pozerám na dvoch piesňach a Samozrejme, ona je jediná, kto má "Dieťa." >> Ale čo keď máte veľa slov? Ak máte skutočný lyrická, niečo ako "dieťa, ja len šiel vidieť [? CFT?] prednáška, "alebo niečo také, a potom ste skutočne zistiť, - na základe všetkých týchto slov - kto je umelec, ktorý pravdepodobne spieval túto pieseň? Takže poďme sa snaží rozvíjať Tento kúsok ďalej. >> OK, takže na základe len na dáta, ktoré sa má, zdá sa, že Gaga je pravdepodobne spevák. Ale ako môžeme písať to viac formálne? A tam to bude trochu Trochu štatistiky. Takže ak ste sa stratili, nech to skúsi pochopiť pojem. Nezáleží na tom, či mi rozumiete rovnice dobre. To všetko bude on-line. >> Takže v podstate to, čo som výpočet je pravdepodobnosť, že táto pieseň je o Lady Gaga za predpokladu, že - takže to znamená, bar za predpokladu, že - Videl som slovo "dieťa". Má to zmysel? Takže sa snažím vypočítať že pravdepodobnosť. >> Takže tam je to veta nazýva Bayesův teorém, ktorý hovorí, že pravdepodobnosť daného B, je pravdepodobnosť B vzhľadom k A, čas pravdepodobnosť, než pravdepodobnosť B. Jedná sa o dlhý rovnice. Ale to, čo musíte pochopiť, zo to je, že to je to, čo chcem vypočítať, že jo? Takže pravdepodobnosť, že pieseň je o Lady Gaga za predpokladu, že som videl slovo "Dieťa." >> A teraz, čo som dostať je pravdepodobnosť, že sa slovo "dieťa" vzhľadom že mám Lady Gaga. A čo je to v podstate? Čo to znamená je to, čo je pravdepodobnosť vidieť slovo "dieťa" V Gaga texty? Ak chcem, aby vypočítali, že vo veľmi Jednoduchý spôsob, je to len číslo Časy vidím "dieťa" na celkovom počte slov v Gaga texty, nie? Aká je frekvencia, ktorú vidím že slovo Gaga prácu? Zmysel? >> Druhý termín je pravdepodobnosť Gaga. Čo to znamená? To v podstate znamená, že to, čo je pravdepodobnosť zaradenia Niektoré texty sú Gaga? A to je trochu divné, ale poďme myslieť na príklade. Takže povedzme, že pravdepodobnosť s "dieťa" v piesni je rovnaký pre Gaga a Britney Spears. Ale Britney Spears má dvakrát viac piesní, než Lady Gaga. Takže ak vám niekto len náhodne dáva Slová "dieťa", prvá vec, ktorú pozrieť sa na to, čo je pravdepodobnosť s "dieťa" vo Gaga pieseň, "dieťa" vo Britney piesni? A to je to isté. >> Takže druhá vec, ktorú uvidíte, je, dobre, čo je pravdepodobnosť Tento lyrický samo o sebe, že Gaga lyric, a aká je pravdepodobnosť, že že Britney lyrický? Takže od Britney má toľko viac texty než Gaga, by pravdepodobne povedzme, no, to je asi Britney lyrický. Takže to je dôvod, prečo máme tento nazvať priamo tu. Pravdepodobnosť Gaga. Dáva to zmysel? Má to? OK. >> A posledná je len pravdepodobnosť o "dieťa", ktoré nie je naozaj záležitosť, ktorá veľa. Ale je to pravdepodobnosť vidieť "dieťa" v angličtine. Zvyčajne je to jedno, že veľa o tom termíne. Má to zmysel? Takže pravdepodobnosť Gaga je volal pred pravdepodobnosti triedneho Gaga. Vzhľadom k tomu, to len znamená, že to, čo je pravdepodobnosť, že bude túto triedu - ktorý je Gaga - len všeobecne, len bez podmienok. >> A potom, keď som sa pravdepodobnosť Gaga vzhľadom k "dieťa," hovoríme a uslzené pravdepodobnosti, pretože je to pravdepodobnosť, že bude Gaga uvedený nejaký dôkaz. Takže dávam vám dôkazy že som videl slovo dieťa a Pieseň zmysel? OK. >> Takže keď som spočítal, že pre každý z piesní pre Lady Gaga, čo by to bolo - Zdá sa, že nemôžem pohnúť to. Pravdepodobnosť, že Gaga bude niečo podobné, 2 cez 24, časy 1/2, viac ako 2 po 53. Nezáleží na tom, či viete, čo tieto čísla sú zasielané z Ale je to len číslo, ktoré sa bude byť väčšia ako 0, nie? >> A potom, keď som to Katy Perry, pravdepodobnosť "dieťa", vzhľadom Katy je Už 0, nie? Pretože neexistuje žiadny "dieťa" Katy Perry. Takže potom to bude 0, a Gaga víťazstvo, čo znamená, že Gaga je pravdepodobne spevák. Má to zmysel? OK. >> Takže ak chcem, aby to viac úradníka, Môžem skutočne urobiť model Pre viac slov. Takže povedzme, že mám niečo, čo ako "baby, ja som v ohni, "alebo tak niečo. Tak to má viac slov. A v tomto prípade, môžete vidieť že "dieťa" je Gaga, ale to nie je v Katy. A "oheň" je v Katy, ale to nie je v Gaga, že jo? Takže je to čím ďalej zložitejšie, že jo? Vzhľadom k tomu, zdá sa, že takmer mať kravatu medzi nimi. >> Takže to, čo musíte urobiť, je predpokladať, nezávislosť medzi slová. Takže v podstate to, čo to znamená, že Ja len výpočet toho, aká je pravdepodobnosť vidieť "dieťa," to, čo je pravdepodobnosť vidieť "ja", a "Ja", a "o" a "oheň," všetky samostatne. Potom som vynásobením všetky z nich. A ja som videl, čo je pravdepodobnosť, vidieť celú vetu. Zmysel? >> Takže v podstate, keď mám len jedno slovo, to, čo chcem nájsť, je arg max, čo znamená, že to, čo je trieda, ktorá je mi dáva najväčšiu pravdepodobnosť? Takže to, čo je trieda, ktorá dáva ma najvyššiu pravdepodobnosť pravdepodobnosť triedy daného slova. Takže v tomto prípade, vzhľadom k tomu Gaga "dieťa." Rovnako Katy "dieťa." Zmysel? >> A práve z Bayes, že rovnica, že som ukázal, sme sa vytvoriť tento zlomok. Jediná vec je, že vidíte, že pravdepodobnosť slová vzhľadom zmeny triedy v závislosti na triede, že jo? Počet "Baby" s, ktoré som V Gaga sa líši od Katy. Pravdepodobnosť triedy tiež zmeny, pretože je to len číslo piesní každý z nich má. >> Ale pravdepodobnosť, že sa slová sám bude rovnaká pre všetky umelci, že jo? Takže pravdepodobnosť, že slovo je Len to, čo je pravdepodobnosť vidieť, že slovo Anglický jazyk? Takže je to rovnaké pre všetky z nich. Takže, pretože to je konštanta, môžeme len pokles to a nezaujíma o to. Takže to bude skutočne rovnice hľadáme. >> A ak mám viac slov, som ešte bude mať pred pravdepodobnosť tu. Jediná vec je, že som násobenie pravdepodobnosť všetky ostatné slová. Takže som vynásobením všetky z nich. Zmysel? Vyzerá to divne, ale v podstate znamená, výpočet predchádzajúcej triedy, a potom násobiť pravdepodobnosťou každého slov je v tejto triede. >> A viete, že pravdepodobnosť Slovo vzhľadom trieda bude koľkokrát vidíte, že slovo že trieda, delená počtom slová, máte v tom, že trieda všeobecne. Zmysel? It to, ako "Baby" bola 2 Použite počet slov, ktoré Mal som v texte. Takže len frekvencie. >> Ale je tu jedna vec. Spomínam si, ako som sa o tom, že pravdepodobnosť "Baby" bytia texty od Katy Perry 0. len preto, že Katy Perry nemal "dieťa" vôbec? Ale znie to trochu krutý len jednoducho povedať, že texty nemôžu byť z umelec len preto, že nemajú tento výraz najmä kedykoľvek. >> Takže ste mohli len povedať, dobre, ak nemajú slovo, budem vám nižšia pravdepodobnosť, ale ja jednoducho nebude vám 0. hneď. Vzhľadom k tomu, možno to bolo niečo ako, "Oheň, oheň, oheň, oheň," ktorý je úplne Katy Perry. A potom "dieťa", a to len dokazuje, 0 hneď, pretože tam bol jeden "Dieťa." >> Takže v podstate to, čo robíme, je niečo, čo tzv Laplace vyhladzovania. A to len znamená, že dávam určitou pravdepodobnosťou aj slov že neexistujú. Takže to, čo robím, je, že keď som výpočte to, vždy som pridať 1 až čitateľ. Takže aj keď slovo neexistuje, v V tomto prípade, ak je to 0, som stále výpočet toto ako jeden cez Celkový počet slov. Inak som si, koľko slov Mám a som pridať 1 ks. Takže som počítal pre oba prípady. Zmysel? >> Takže teraz poďme urobiť nejaké kódovanie. Budem musieť urobiť to celkom rýchlo, ale to je len dôležité, aby vám chlapci pochopiť koncepty. Takže to, čo sa snažíme robiť je presne realizovať tento vec, ktorú som práve povedal - Chcem vám dať texty od Lady Gaga a Katy Perry. A program sa bude môcť povedať, či tieto nové texty sú od Gaga alebo Katy Perry. Zmysel? OK. >> Tak som si tento program Idem volať classify.py. Tak toto je Python. Je to nový programovací jazyk. To je veľmi podobné v niektorých spôsoby, ako C a PHP. Je to podobné, pretože ak chcete učiť Python po poznať C, je to naozaj nie je, že veľkú výzvu len preto, že Python je oveľa jednoduchšie ako C, v prvom rade. A veľa vecí sa už implementovaný pre vás. Tak, ako ako PHP má funkcie, ktoré zoradiť zoznam, alebo pridať niečo na pole, alebo bla, bla, bla. Python má všetky tie, ktoré sú dobre. >> Tak som len tak vysvetliť rýchlo ako by sme mohli urobiť klasifikáciu problém tu. Takže povedzme, že v tomto prípade mám texty z Gaga a Katy Perry. Spôsobom, že mám tie texty, je, že prvé slovo texte je meno umelca, a zvyšok je text. Takže povedzme, že mám tento zoznam v ktorých prvý je text od Gaga. Tak tu som na správnej ceste. A ďalší je Katy, a má tiež texty. >> Tak to je, ako deklarovať premenná v Pythone. Nemusíte dávať dátový typ. Stačí napísať "texty" Niečo ako v PHP. Zmysel? >> Takže aké sú veci, ktoré som sa vypočítať, aby bolo možné vypočítať pravdepodobnosti? Musím vypočítať "priors" každého iný triedy, ktoré mám. Musím vypočítať "distálny", alebo do značnej miery pravdepodobnosti každého z rôznych slov, ktoré Môžem mať pre každého umelca. Takže v rámci Gaga, napríklad, ja idem mať zoznam koľkokrát vidím každý zo slov. Zmysel? >> A nakoniec, ja len budem musieť Zoznam s názvom "slová", ktorá sa práve chystá mať, koľko slov som mať pre každého umelca. Takže pre Gaga, napríklad, keď sa pozriem k textu, som, myslím, 24 Slová celkom. Takže tento zoznam je len bude mať Gaga 24, a Katy iné číslo. Zmysel? OK. >> Takže teraz, vlastne, poďme ísť na kódovanie. Takže v Pythone, môžete skutočne návrat na veľa rôznych veci z funkcie. Takže idem vytvoriť túto funkciu tzv "podmienené", ktorý sa bude vrátiť všetky tie veci, "Priors," že "pravdepodobnosť", a "Slová." Takže "podmienené", a to je bude volať do "texty." >> Takže teraz chcem, aby ste skutočne napísať túto funkciu. Takže spôsob, že môžem napísať tento funkcie som definovala fungovať s "def." Tak som to urobil "def podmienené ", a to pri "Texty." A čo to bude robiť je, v prvom rade, mám priors že chcem počítať. >> Takže spôsob, ako to môžem urobiť, je vytvoriť slovník v jazyku Python, ktorý je skoro to isté ako hash stôl, alebo je to ako iteratívny polia v PHP. To je, ako Prehlasujem slovník. A v podstate to, čo to znamená, že priors Gaga je 0,5, napríklad v prípade, 50% z textov sú z Gaga, 50% sú od Katy. Zmysel? Tak som sa prísť na to, ako pre výpočet priors. >> Budúci tie, ktoré musím urobiť, i, sú pravdepodobnosti a slová. Takže pravdepodobnosť Gaga je zoznam zo všetkých pravdepodobnosťou, že som sa pre každý zo slov pre Gaga. Takže keď idem na pravdepodobnosti Gaga "Dieťa", napríklad, že to mi niečo ako 2 v priebehu 24 v tomto prípade. Zmysel? Tak ja idem na "pravdepodobnosť", prejdite ku "Gaga" vedierko, ktorý má zoznam všetkých slová Gaga, potom idem na "dieťa," a vidím pravdepodobnosť. >> A nakoniec som si to "Slová" slovník. Tu teda, "pravdepodobnosti." A potom "Slová." Takže keď som to "slovo", "Gaga", čo sa stane, je, že je to mi dáš 24, hovorí, že som má 24 slov v textoch z Gaga. Dáva to zmysel? Tak tu, "slová" rovná Dah-Dah-DAH. OK >> Takže, čo budem robiť, je budem iterácii každý z textov, tak každý z reťazcov, ktoré Mám v zozname. A budem počítať tie veci pre každý z kandidátov. Dáva to zmysel? Takže musím urobiť pre sláčiky. >> Takže v Pythone, čo môžem urobiť, je "pre linku v textoch. "to isté ako "Pre každý" vyhlásenie v PHP. Spomínam si, ako keby to bolo PHP som mohol povedať: "pre každý text ako linka. "Dáva to zmysel? Takže beriem každý z riadkov, v tomto prípad, tento reťazec a ďalšie reťazec, takže pre každú z liniek, čo som robiť, je prvý, budem rozdeliť tento riadok v zozname slov oddelených medzerami. >> Takže super vec o Pythone je, že môžete len Google, ako je "Ako môžem rozdeliť reťazec do slov? "A je to ti povedať, ako to urobiť. A spôsob, ako to urobiť, je to len "linka = Line.split () "a je to v podstate dám vám zoznam s každý zo slov tu. Dáva to zmysel? Takže teraz, že som to urobil, že chcem vedieť, kto je speváčka tejto piesne. A k tomu, že som sa dostať Prvý prvok poľa, nie? Takže môžem len povedať, že som "spevák = Linka (0) "Dáva to zmysel? >> A to, čo musím urobiť, potom je prvá všetci, budem aktualizovať, koľko slová, ktoré som si pod "Gaga". takže som len bude počítať, koľko slov som majú v tomto zozname, nie? Pretože to je to, koľko slov mám v slovách a ja len tak pridať do "Gaga" pole. Má to zmysel? Nepoužívajte príliš sústredí na syntax. Premýšľajte viac o pojmy. To je tá najdôležitejšia časť. OK. >> Takže to, čo som si to, ak je "Gaga" je Už v tomto zozname, tak "ak spevák slová ", čo znamená, že som sa už majú slová by Gaga. Chcem len pridať ďalšie slová, že. Takže to, čo robím, je "slová (spevák) + = Ľan (line) - 1 ". A potom som si len urobiť dĺžka vedenia. Tak koľko prvkov Aj sa v poli. A musím urobiť mínus 1 len preto, že Prvý prvok poľa je len spevák a tie nie sú texty. Dáva to zmysel? OK. >> "Inak," znamená to, že chcem, aby skutočne vložiť Gaga do zoznamu. Tak som jednoducho "slová (spevák) = Ľan (line) - 1, "Ospravedlňujem sa. Takže jediný rozdiel medzi týmito dvoma vedenia je, že táto jedna, to nie je doteraz neexistujú, a tak som len inicializáciu. Tenhle som vlastne pridať. OK. Takže to bolo pridaním slov. >> Teraz chcem pridať Vierozvestcov. Tak ako to mám vypočítať priors? Vierozvestci možno vypočítať podľa toho, ako koľkokrát. Takže koľkokrát vidíte, že spevák medzi všetkými, ktoré ste spevákov mať, že jo? Takže pre Gaga a Katy Perry, v tomto prípade vidím Gaga raz, Katy Perry raz. >> Takže v podstate sa priors pre Gaga a pre Katy Perry by byť len jeden, nie? Práve ste koľkokrát Vidím umelca. Tak to je veľmi ľahké vypočítať. Môžem len niečo podobné ako ako "ak spevák v priors, "Idem pridať 1 až ich Priors poľa. Takže, "priors (spievať)" + = 1 "a potom" iný " Budem robiť, "priors (spevák) = 1. "Dáva to zmysel? >> Takže ak to neexistuje, len som dal ako 1, inak som len pridať 1 ks. OK, tak teraz všetko, čo som odišiel robiť je tiež pridať každý z slov pravdepodobnosti. Takže mám počítať, koľkokrát Vidím každý zo slov. Tak som jednoducho musel urobiť ďalšie pre slučku v rade. >> Takže prvá vec, ktorú budem robiť, je skontrolujte, či speváčka už má pravdepodobnosti poľa. Takže som kontrolovať, či spevák nie je majú pravdepodobnosti pole, ja som len bude inicializovať jeden pre nich. Nie je to ani poľa, je mi ľúto, je to slovník. Takže pravdepodobnosť speváka sa deje byť otvorený slovník, takže som len inicializácii slovník neho. OK? >> A teraz môže skutočne urobiť pre sláčiky pre výpočet každej zo slov " pravdepodobnosti. OK. Takže to, čo môžem urobiť, je pre sláčiky. Tak som len tak iterácii cez pole. Takže tak, že to môžem urobiť v Pythone je "for i in range." Od 1. pretože chcem začať v druhej element, pretože prvý z nich je Názov spevák. Takže z jedného do dĺžka vedenia. A keď som sa pohybujú v skutočnosti ísť od ako tu od 1 do ľan z linka mínus 1. Tak to už robí tú vec robiť n mínus 1 pre pole, ktoré je veľmi pohodlné. Dáva to zmysel? >> Takže pre každého z nich, čo budem urobiť, je, rovnako ako v druhej, Idem zistiť, či slovo v tomto pozície v rade je už v pravdepodobnosti. A potom, keď som povedal tu, pravdepodobnosti slová, ako v dal som "Pravdepodobnosti (spevák)". Takže meno speváka. Takže ak je to už v roku "Probability (spevák)", znamená to, že som Chcete pridať 1 k nemu, takže budem robiť, "pravdepodobnosti (spevák)" a Slovo sa nazýva "linka (i)". Chystám sa pridať 1 a "iný" Som len bude inicializovať na hodnotu 1. "Linka (i)". Dáva to zmysel? >> Tak, Aj vypočítaná všetkých polí. Takže teraz všetko, čo mám urobiť pre toto je jednoducho "vrátiť priors, pravdepodobnosti a slová. "Poďme zistiť, či existujú nejaké, OK. Zdá sa, že všetko funguje tak ďaleko. Tak, to dáva zmysel? V nejakým spôsobom? OK. Takže teraz mám všetky pravdepodobnosti. Takže teraz to jediné, čo mi zostalo je len mať tú vec, že vypočíta súčin všetkých Pravdepodobnosti, keď som si texty. >> Takže povedzme, že chcem, aby sa zavolať Táto funkcia "klasifikácia ()" a vec, ktorá funkcia má je len argumentom. Povedzme, že "Baby, som na oheň" a je to bude zistiť, čo je pravdepodobnosť, že je to Gaga? Aká je pravdepodobnosť, že je to Katie? Znie to dobre? Takže som jednoducho musieť vytvoriť nová funkcia s názvom "klasifikácie ()" a že to bude trvať nejaký texty rovnako. A okrem textov aj ja musieť poslať priors, pravdepodobnosti a slová. Takže budem posielať texty, priors, pravdepodobnosť, slová. >> Takže je to s textami, priors, pravdepodobnosť, slová. Takže, čo to robí? Je to v podstate sa chystá prejsť všetky možných kandidátov, ktoré ste mať ako spevák. A kde sú tie kandidátmi? Sú v priors, že jo? Tak som si všetky tie tam. Takže budem mať slovník zo všetkých možných kandidátov. A potom pre každého kandidáta v priors, tak to znamená, že to bude bude Gaga, Katie, keby som mal viac, že to bude viac. Chystám sa začať výpočtu táto pravdepodobnosť. Pravdepodobnosť, ako sme videli v PowerPoint je skoršie časy produkt každého ďalšie pravdepodobnosti. >> Tak som si to tu isté. Môžem len to, pravdepodobnosť je spočiatku len pred. Takže priors kandidáta. Je to tak? A teraz mám pre iteráciu cez všetky slová, ktoré mám v texte sa možné pridať pravdepodobnosť pre každú z nich, OK? Takže, "slová v textoch" čo budem k tomu je, ak je slovo v "Pravdepodobnosti (kandidátskych)", ktoré Znamená to, že je to slovo, ktoré kandidát má vo svojich textoch - Napríklad, "dieťa" pre Gaga - čo budem robiť, je to, že pravdepodobnosť sa bude násobiť o 1 a pravdepodobnosti na kandidát na toto slovo. A volá sa "slovo". Tento delený počtom slov že mám pre tohto kandidáta. Celkový počet slov, ktoré mám pre speváka, ktorý som pri pohľade na. >> "Else". to znamená, že je nové slovo tak to by bolo, ako napríklad "Oheň" pre Lady Gaga. Takže chcem len urobiť jeden cez "Slovo (kandidát)". Takže nechcem, aby tento termín tu. >> Takže to bude v podstate kopírovanie a vkladanie toto. Ale ja idem zmazať túto časť. Takže je to len bude 1 cez to. Znie to dobre? A teraz na konci, ja len tak vytlačiť meno kandidáta a pravdepodobnosť, že budete mať z má S na svojich textoch. Dáva to zmysel? A ja vlastne ani nemám je potrebné tento slovník. Dáva to zmysel? >> Takže, poďme zistiť, či to skutočne funguje. Takže keď som spustiť to, sa to nebude fungovať. Počkajte jednu sekundu. "Slová (kandidátskych)", "slová (kandidátskych)", to je názov poľa. OK Tak, to hovorí, že je to nejaký bug pre kandidáta na priors. Dovoľte mi len chill trochu. OK. Poďme to skúsiť. OK. >> Tak to dáva Katy Perry má tento pravdepodobnosť, že tento násobok 10 na mínus 7, a Gaga má tento krát 10 na mínus 6. Takže vidíte, že ukazuje, že Gaga má vyššiu pravdepodobnosť. Takže "Miláčik, ja som na Fire" je pravdepodobne Gaga pieseň. Dáva to zmysel? Takže to je to, čo sme urobili. >> Tento kód sa bude vyslaný on-line, takže vy môžete pozrieť. Možno, že použitie niektoré z nich, ak si chcete urobiť projekt, alebo niečo podobné. OK. To bolo len ukázať, Čo výpočtovej lingvistika kód vyzerá. Ale teraz poďme k ďalšej Vysoká úroveň veci. OK. >> Takže ďalšie problémy som hovoril o - problém segmentácia je prvá z nich. Takže máte tú japončinu. A potom vidíte, že nie sú tam žiadne medzery. Takže je to v podstate znamená, že je horné stoličky, nie? Môžete hovoriť japonsky? Je to najvyššia zo stoličky, že jo? >> STUDENT: Neviem, čo kanji tam je. >> LUCAS FREITAS: Je to [HOVORIACI japonský] OK. Takže to v podstate znamená, že predsedníctvo vrchole. Takže ak by ste mali dať priestor to bude tu. A potom máte [? Ueda-san. ?] Čo v podstate znamená, že pán Ueda. A vidíte, že "Ueda" a máte priestor a potom sa "san". Takže vidíte, že tu "Ue" je ako sama o sebe. A tu je má charakter vedľa nej. >> Takže to nie je ako v tých jazykoch znaky, čo znamená slovo to, aby vám stačí dať veľa priestoru. Postavy sa vzťahujú ku každému iný. A môžu byť spolu ako dve, tri, jeden. Takže ste skutočne vytvoriť nejaký o spôsob, ako dať tieto priestory. >> A to je to, že vždy, keď sa dostanete Údaje z týchto ázijských jazykov, všetko, čo príde unsegmented. Pretože nikto, kto píše japonsky alebo čínske píše s medzerami. Kedykoľvek budete písať čínsky, Japonská stačí napísať všetko bez medzier. To nemá ani zmysel dať priestor. Takže, keď sa dostanete dáta z niektorej Východnej Ázie jazyk, ak chcete skutočne niečo urobiť s tým musíte segmente ako prvý. >> Zamyslite sa *** tým na príklad texty bez medzier. Takže iba texty, ktoré majú Bude vety, nie? Oddelených bodkami. Ale potom majú len trest bude nie je naozaj pomôcť na to, aby informácie kto tie texty sú o Je to tak? Takže by ste mali stavia prvej medzery. Tak ako môžete robiť, že? >> Takže potom príde myšlienka jazyka model, ktorý je niečo, čo naozaj dôležité pre výpočtovú lingvistika. Takže jazykový model je v podstate tabuľka pravdepodobnosťou, že ukazuje v prvom rade to, čo je pravdepodobnosť mať slovo v jazyku? Tak ukazuje, ako často je slovo. A potom tiež ukazuje vzťah medzi slovami vo vete. >> Takže hlavnou myšlienkou je, že ak cudzinec prišiel pre vás a povedal vetu si, aká je pravdepodobnosť, že pre napríklad, "toto je moja sestra [? GTF"?] bola veta, že človek hovorí? Takže samozrejme niektoré vety sú častejšie ako iné. Napríklad, "dobré ráno" alebo "dobrý noc, "alebo" hej tam, "je oveľa viac časté než väčšina viet že máme angličtinu. Tak prečo sú tie tresty častejšie? >> Po prvé, je to preto, že máte slová, ktoré sú častejšie. Tak, napríklad, keď poviete, že pes je veľký, a pes je obrovský, môžete zvyčajne asi počuť pes je veľký častejšie, pretože "veľká" je viac často v angličtine, ako "gigantický". Takže jeden z čo je slovo frekvencie. >> Druhá vec, ktorá je naozaj Dôležitá je len Poradie slov. Tak, to je bežné hovoriť "mačka je vnútri škatule. ", ale tie nie sú obvykle pozri v "krabici vo vnútri je mačka." tak Vidíte, že tam je nejaký význam v poradí slov. Nemôžete len tak povedať, že tí dvaja vety majú rovnakú pravdepodobnosť len preto, že majú rovnaké slová. V skutočnosti musíte starať o poradí rovnako. Zmysel? >> Tak čo budeme robiť? Takže to, čo som mohol pokúsiť dostať vás? Snažím sa vám to, čo sme zavolajte modely n-gram. Takže n-gramové modely v podstate predpokladá, že pre každé slovo, ktoré máte vo vete. Je to pravdepodobnosť, že mať Slovo tu závisí nielen na Frekvencia tohto slova v jazyku, ale tiež na slová, ktoré sa ho obklopuje. >> Tak napríklad, zvyčajne, keď vidíte, niečo ako na, alebo na ty si pravdepodobne bude vidieť podstatné meno po ňom, nie? Vzhľadom k tomu, keď máte predložku Zvyčajne to trvá podstatné meno po ňom. Alebo ak máte sloveso, ktoré je tranzitívne zvyčajne sa chystáte majú mennú frázu. Takže to bude mať podstatné meno niekde okolo neho. >> Takže, v podstate, čo to urobí, je, že sa domnieva, že pravdepodobnosť, že bude slová vedľa seba, keď ste výpočtu pravdepodobnosť vety. A to je to, čo o jazyk, model je v podstate. Len hovorím, čo je pravdepodobnosť, mať špecifický veta v jazyku? Tak prečo je to užitočné, v podstate? A v prvom rade to, čo je Model n-gram, potom? >> Takže modelu n-gram znamená, že každé slovo je závislá na ďalšie N mínus 1 slov. Takže, v podstate, to znamená, že ak sa pozriem, napríklad na CS50 TF pri Ja výpočet pravdepodobnosti veta, budete mať ako " pravdepodobnosť, že bude slovo "" krát pravdepodobnosť, že bude " CS50 "krát pravdepodobnosť, že bude "CS50 TF." Takže v podstate som počítať všetky možné spôsoby naťahovať to. >> A potom sa zvyčajne, keď robíte to, ako v projekte, dáte N sa nízka hodnota. Takže, zvyčajne bigrams alebo trigramov. Takže stačí počítať dve slovami, skupina dvoch slov, alebo troch slov, len za funkčné problémy. A tiež preto, že možno máte ak niečo ako "The CS50 TF." Keď majú "TF", to je veľmi dôležité, aby "CS50" je vedľa nej, že jo? Tieto dve veci sú zvyčajne vedľa seba. >> Ak si myslíte, že "TF", to je asi bude mať to, čo Trieda je to TF'ing pre. Tiež "" je veľmi dôležité, pre CS50 TF. Ale ak máte niečo ako "The CS50 TF šiel do triedy a dal ich Študenti nejaký cukrík. "" Candy "a" " nemajú žiadny vzťah naozaj, že jo? Sú tak ďaleko od seba, že to nie je naozaj jedno, čo Slová máte. >> Takže tým, že robí bigram alebo trigram, že jednoducho znamená, že ste obmedzení sami na niektorých slov ktoré sú v okolí. Zmysel? Takže ak chcete urobiť segmentácie, v podstate, čo chcete urobiť, je vidieť aké sú všetky možné spôsoby, ako môžete segmentu vetu. >> Taký, že vidíte, čo je pravdepodobnosť, že každé z týchto viet existujúce v jazyku? Takže to, čo robíte, je rád, dobre, nech me sa snaží dať priestor tu. Tak si dal priestor tu a uvidíte, čo je pravdepodobnosť tejto vety? Potom ste ako, OK, možno že to nie je tak dobré. Tak som dal priestor tam a priestor tam, a vypočítať pravdepodobnosť teraz, a uvidíte, že je vyššia pravdepodobnosť. >> Tak toto je algoritmus s názvom TANGO segmentácia algoritmus, ktorý je vlastne niečo, čo by bolo naozaj v pohode pre projekt, ktorý v podstate sa unsegmented text, ktorý môžu byť japonskej alebo čínskej, alebo možno Anglicky bez medzier a snaží sa dať medzery medzi slovami a to robí že pomocou jazyka modelu a sa snažia zistiť, čo je najvyššia Pravdepodobnosť môžete dostať. OK. Tak toto je segmentácia. >> Teraz syntaxe. Takže, syntax je používaný pre toľko vecí, práve teraz. Takže Graf vyhľadávania, pre Siri pre skoro akýkoľvek druh prírodnej spracovanie jazyka, ktorý máte. Takže to, čo je dôležité veci, o syntax? Takže, vety majú všeobecne čo nazývame zložky. Aké sú niečo ako skupiny slov ktoré majú funkciu vo vete. A nemôžu byť naozaj od seba. >> Takže, keď poviem, napríklad, "Lauren miluje Milo. "Ja viem, že" Lauren "je zložka a potom "lásky Milo "je tiež iný. Vzhľadom k tomu, nemôžete povedať, ako "Lauren Milo miluje "majú rovnaký význam. Nebude to mať rovnaký význam. Alebo Nemôžem povedať, že ako "Milo Lauren miluje. "Nie všetko, čo má rovnaký čo znamená, robiť, že. >> Takže dve ďalšie dôležité veci, o Syntax sú lexikálne typy, ktoré je v podstate funkcia, ktorá vám majú slová sami. Takže musíte vedieť, že "Lauren" a "Milo" sú podstatné mená. "Láska" je sloveso. A druhá dôležitá vec je, že sú frázové typy. Takže viete, že "miluje Milo" je vlastne slovné frázy. Takže keď hovorím "Lauren," ja viem, že Lauren sa niečo robiť. Čo to robí? Ona je milujúci Milo. Tak to je celá vec. Ale jeho komponenty sú podstatné meno a sloveso. Ale dohromady, robia sloveso frázu. >> Takže, čo môžeme skutočne urobiť s počítačová lingvistika? Takže, keď mám niečo, čo napríklad "Priatelia Allison." Vidím, či som sa syntaktický strom by som vedieť, že "Priatelia" je vzťahujú údaje frázy je podstatné meno a potom "Allison" je predložkové frázy, v ktorých "z" je návrh a "Allison" je podstatné meno. To, čo som mohol urobiť, je naučiť počítač že keď mám vzťahujú údaje frázy jedno a potom predložkové frázy. Takže v tomto prípade, "priatelia" a potom "z Milo "Ja viem, že to znamená, že NP2, druhá, vlastné NP1. >> Tak som sa vytvoriť nejaký vzťah, nejaká funkcia pre ňu. Takže keď vidím túto štruktúru, ktorá zodpovedá presne s "priateľmi Allison, "ja viem, že Allison vlastné priateľov. Takže priatelia sú niečo, že Allison má. Dáva to zmysel? Tak to je v podstate to, čo Graf Search robí. Je to len vytvára pravidlá na veľa vecí. Takže "priatelia Allison", "moji priatelia ktorí žijú v Cambridge, "" svojim priateľom ktorí idú na Harvarde. "Vytvára pravidlá pre všetky tie veci. >> Teraz strojový preklad. Takže, strojový preklad, je tiež niečo štatistické. A skutočne, ak ste sa zapojili do počítačová lingvistika, veľa vaše veci bude štatistika. Takže ako som robil príklad s veľa pravdepodobnosťou, že som bol výpočtu, a potom sa dostanete k tomu veľmi malé číslo, ktoré je konečné pravdepodobnosť, a to je to, čo vám dáva odpoveď. Strojový preklad tiež používa štatistický model. A ak chcete myslieť na stroji preklad v najjednoduchšie Mimochodom, čo si môžete myslieť, je len prekladať slovo od slova, že jo? >> Keď sa učíte jazyk pre Prvýkrát, to je zvyčajne to, čo vy, že jo? Ak chcete, môžete preložiť vetu vo vašom jazyku do jazyka učíte, zvyčajne ako prvé, preložiť každý zo slov individuálne, a potom skúste dať slová na miesto. >> Takže keď som chcel, aby to preložiť, [HOVORIACI portugalský] , Čo znamená "biela mačka utiekla." Ak by som to chcel preložiť z Portugalčina do angličtiny, to, čo som mohol urobiť, je, ako prvá, len som prekladať slovo od slova. Takže "o" je "," "gato", "mačka", "Branco", "biela", a potom "Fugi" je "Utiekol." >> Tak som si všetky slová tu, ale to nie je v poriadku. Je to ako "mačka biela utiekol" ktorý je ungrammatical. Takže, potom môžem mať druhý krok, ktorý sa bude nájsť ideálne pozície pre každý zo slov. Takže viem, že som vlastne chcem mať "Biely kocúr" namiesto "mačka biely." Tak čo môžem urobiť, je, najviac naivný metódu by bolo vytvoriť všetky možné permutácie slová, pozícií. A potom zistiť, ktorý z nich má Najvyššia pravdepodobnosť podľa do môjho jazyka modelu. A potom, keď som sa nájsť ten, ktorý má najvyššiu pravdepodobnosť, že, ktorý je pravdepodobne "biely kocúr utiekol," to je môj preklad. >> A to je jednoduchý spôsob, ako vysvetliť ako veľa strojového prekladu algoritmy pracujú. Má to zmysel? To je tiež niečo, čo naozaj vzrušujúce že vy môžete možná prieskum Konečný projekt, jo? >> STUDENT: No, hovoril, že to bolo naivný spôsob, takže to, čo je non-naivný cesta? >> LUCAS FREITAS: non-naivný cesta? OK. Takže prvá vec, ktorá je zlé na tom, táto metóda je, že som preložil slová, slovo od slova. Ale niekedy budete musieť slová, ktoré môže mať viac prekladov. Budem sa snažiť myslieť niečo. Napríklad, "manga" v portugalskej plechovke buď "mangeľ" alebo "rukáv". Tak keď sa snažíte preložiť slovo slovom, to by mohlo byť, že vám niečo, čo nedáva zmysel. >> Takže vy vlastne chcete, aby sa pozriete na všetky možné preklady slová a vidieť, v prvom rade, čo je rozkaz. Rozprávali sme si o permutating veci? Ak chcete zobraziť všetky možné príkazy a vybrať ten s najvyššou pravdepodobnosť? Môžete si tiež vybrať všetky možné preklady pre každého slovo a potom uvidíme - v kombinácii s permutácií - , Ktorý z nich má najvyššiu pravdepodobnosť. >> Plus, môžete sa tiež pozrieť na to len slová, ale vety. takže môžete analyzovať vzťahy medzi slová a potom sa lepší preklad. Tiež niečo iné, tak tento semester Ja som vlastne robil výskum v Čínsko-anglický strojový preklad, takže prekladanie z Čínska do angličtiny. >> A niečo, čo robíme, je, okrem použitia štatistický model, ktorý je práve vidieť pravdepodobnosťou vidieť niektoré pozície vo vete, že som vlastne tiež pridať nejakú syntax my Model, riekol: Ach, keď vidím tento druh výstavby, to je to, čo chcem to zmeniť, keď som sa prekladať. Takže môžete tiež pridať nejaký prvok syntaxe, aby Preklad účinnejšie a presnejšie. OK. >> Tak ako môžete začať, ak chcete robiť niečo vo výpočtovej lingvistika? >> Najprv si vyberiete projekt , Ktorá sa týka jazykov. Takže, tam je tak veľa tam vonku. Je tu toľko vecí, ktoré môžete urobiť. A potom môžete premýšľať o modeli ktoré môžete použiť. Zvyčajne to znamená, že myslenie predpoklady, as ako, oh, keď som bol ako myslenie textu. Bol som rád, dobre, či chcem prísť out, ktorý to napísal, asi chcem pozrieť sa na slová, osoba používa a zistiť, kto používa toto slovo veľmi často. Takže sa snažia, aby predpoklady a skúste sa zamyslieť modelov. A potom sa môžete tiež vyhľadať online druh problému, ktorý máte, a bude to o tom, aby vás modely, ktoré možno modelovať tú vec dobre. >> A tiež môžete vždy napíšte mi. me@lfreitas.com. A môžem len odpovedať na vaše otázky. Môžeme dokonca mohli stretnúť, takže môžem dávať návrhy na spôsoby realizáciu projektu. A mám na mysli, keď sa zapojiť do počítačová lingvistika, že to bude byť skvelý. Budeš vidieť, že je tak veľký potenciál. A priemysel chce najať ste tak zlé, pretože to. Takže dúfam, že vy užil toto. Ak vy máte nejaké otázky, môžete ma požiadať po tomto. Ale ďakujem.