“考拉閱覽CEO:怎么利用AI、語言學(xué)做出國內(nèi)首個(gè)中文分級閱覽系統(tǒng)?”
更新時(shí)間:2022-03-11 14:21:09
人氣指數(shù):
網(wǎng)站標(biāo)簽:
深圳汽車抵押貸款最大的那家【科技在線】 在一批在線教育試水者當(dāng)中,趙梓淳帶領(lǐng)的考拉閱覽有點(diǎn)不太一樣。
因?yàn)閲鴥?nèi)做分級閱覽的雖然不多,但是做中文的分級閱覽,國內(nèi)目前卻僅有他們一家。
考拉閱覽ceo趙梓淳
在在線教育這個(gè)行業(yè),考拉閱覽算是一名新人 成立不足1年,團(tuán)隊(duì)堪滿60人,剛完成3000萬的pre-a輪融資。在創(chuàng)始人趙梓淳眼中,閱覽教育是一項(xiàng)非常龐大的產(chǎn)業(yè),ai+教育的未來仍存在很多不明確性。考拉閱覽也還處于摸索階段。
為什么要做中文的分級閱覽標(biāo)準(zhǔn)?
事實(shí)上,在國內(nèi),如好未來、vipkid等一點(diǎn)在線教育公司已經(jīng)在做英文的分級閱覽,雖有其物,但一直沒多大水花。趙梓淳向雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))透露,對于考拉閱覽來講,做英語的分級閱覽標(biāo)準(zhǔn)并沒有太大的技術(shù)難度,但他們并不想做。
原因很簡單,海外已有一套很成熟的英文分級閱覽標(biāo)準(zhǔn)系統(tǒng),不僅運(yùn)行了將近40年且已覆蓋了美國90%的學(xué)校,如lexile分級(藍(lán)思分級)、ge分級等。而在國內(nèi),中文閱覽不僅連分級標(biāo)準(zhǔn)都未樹立,很多教師甚至連分級閱覽都沒聽過,尤其是在重要的k12教育行業(yè),很多書店給童書分級,只能給出諸如 適合8歲以下孩子閱覽的童話書 等基于感性、經(jīng)驗(yàn)基礎(chǔ)的文案建議。此外,教師、家長對孩子的閱覽水平的了解也一直處于空白狀態(tài),因?yàn)楂@取這一數(shù)據(jù)的渠道不是沒有,就是非常非常有限。
在這兩大剛需的驅(qū)使下,再加上 全民閱覽 、二胎等關(guān)聯(lián)政策的頒布,以及人工智能、機(jī)器學(xué)習(xí)和大數(shù)據(jù)的快速發(fā)展,又給前者提供了更充分的條件,這一切都讓趙梓淳覺得:做一套中文的分級閱覽標(biāo)準(zhǔn)很有必要,而且,時(shí)機(jī)也來了。
瞄準(zhǔn)ai,樹立基于er framework的中文分級閱覽系統(tǒng)
丨中英文差異
考拉閱覽cto任易透露,在歐美,英文的分級閱覽首要有兩個(gè)維度:
? 語義:首要看詞頻,如果一個(gè)單詞出現(xiàn)的頻次很低,則系統(tǒng)會(huì)判定這個(gè)詞相對較難。
? 句法:首要看句子長度,長句通常較難去拆析和理解。而句子難度跟從句、副詞、介詞等的采用也密切關(guān)聯(lián)。
在這兩個(gè)維度上,歐美國家通過統(tǒng)計(jì)學(xué)的做法來完成分級閱覽標(biāo)準(zhǔn)的樹立。任易表示,考拉閱覽的中文分級閱覽標(biāo)準(zhǔn)(er framework )借鑒了海外的 詞、句 的拆析思想,因而和其有一定的相似性。但是,由于中文相較英文的「天生多而雜性」,決策了考拉閱覽必需做得更加深入。
據(jù)趙梓淳介紹,中文和英文的三大本質(zhì)區(qū)別首要在于:
? 基礎(chǔ)單元:英文的基礎(chǔ)是26個(gè)字母,中文的常用漢字達(dá)3500個(gè),這就決策了中文閱覽的拆析必然需要一個(gè)規(guī)模化的語料庫。
? 分詞:英文不需要分詞,僅需空格即可判定詞語的邊界,但漢字脫離不了分詞。如「量子自旋效應(yīng)」這個(gè)詞,有人可以將其分為「量子」、「自旋」、「效應(yīng)」三個(gè)詞,也有人認(rèn)為這就是一個(gè)詞。但在英文中就無此類困擾。
? 句式結(jié)構(gòu):在句式結(jié)構(gòu)上,英文要嚴(yán)謹(jǐn)?shù)枚啵缰鲝木渲g會(huì)有that、which、what等來界定。中文的行文風(fēng)格則較為隨意,嵌套結(jié)構(gòu)也要混亂得多。
丨「字詞句段篇」五大維度+ai技術(shù)
鑒于這三大區(qū)別,考拉閱覽基于er framework的分級閱覽標(biāo)準(zhǔn)在「詞」、「句」的基礎(chǔ)上再加入「字」、「段」、「篇」三個(gè)維度,即從「字詞句段篇」五大維度提取幾十個(gè)特征來表達(dá)中文的難度,并實(shí)現(xiàn)段落、主題等的拆析。如在「字」其下還有常用性、構(gòu)形、組合性三個(gè)特征,「句」則有句法結(jié)構(gòu)、語義邏輯、修辭表達(dá)和嵌套深度四個(gè)特征等等。
趙梓淳表示幾百萬字的非平衡語料庫和幾億字的平衡語料庫。考拉閱覽的非平衡語料庫首要來自每個(gè)版本的小學(xué)教材及其教輔資料,其是指垂直于某一品類的語料庫,如小說、歷史傳記各有其對應(yīng)的語料庫;平衡語料庫即指一個(gè)孩子在日常生活中需要真實(shí)接觸的語料,如,按照一位10歲小孩需要看20%的名著小說、50%的課文和20%的漫畫這種比例來配語料庫。
因?yàn)橹形牡牡木渥酉噍^英文要多而雜得多,機(jī)器在理解中文的第一步就會(huì)遇到詞性拆析、語言模型上的困難。所以,有賴于現(xiàn)在流行的ai技術(shù),如rnn、lstm等深度學(xué)習(xí)技術(shù),可以彌補(bǔ)中文在nlp上的缺失。 任易表示, 現(xiàn)在我們可以做到,將一個(gè)句子按照句法樹、依靠相關(guān)等予以拆解,以拆析每一個(gè)成分在句子中的比重,從而實(shí)現(xiàn)閱覽文案的難度分級。
而區(qū)別于歐美英文分級閱覽,考拉閱覽的分級閱覽系統(tǒng)大的特點(diǎn)即在于ai在此發(fā)揮的作用。趙梓淳向雷鋒網(wǎng)透露,隨著客戶數(shù)量的增加,產(chǎn)生的數(shù)據(jù)越多,該系統(tǒng)中的模型可實(shí)現(xiàn)自主學(xué)習(xí),不斷優(yōu)化,從而對文案閱覽的難度感知越發(fā)準(zhǔn)確。
以教育局切入,「從上至下」走to b路線
據(jù)了解,目前趙梓淳帶領(lǐng)其團(tuán)隊(duì)共開發(fā)了三款產(chǎn)品:
? 基于er framework的個(gè)性化分級閱覽系統(tǒng);
? 基于er framework和 新課標(biāo) 的閱覽能力測評;
? 對比公立學(xué)校的閱覽整體處理方案,包括教師培訓(xùn)、分級短文材料等。
其中,考拉閱覽的分級閱覽系統(tǒng)現(xiàn)在已經(jīng)進(jìn)入天津市200余所中小學(xué),被全市上百萬的小學(xué)生采用。趙梓淳稱,考拉閱覽的客戶群首要為小學(xué)階段的孩子,目標(biāo)是利用ai和語言學(xué)的結(jié)合,全面提升這些孩子的閱覽能力。
在企業(yè)戰(zhàn)術(shù)決定的制定上,趙梓淳顯得非常冷靜而果斷,其稱,考拉閱覽的業(yè)務(wù)從一開始就是圍繞to b在展開,不會(huì)對比c端采用。原因有兩點(diǎn):
1、普通民眾并不明白什么是分級閱覽。對于考拉閱覽這種體量的創(chuàng)業(yè)企業(yè)來說,要轉(zhuǎn)變他們對分級閱覽的認(rèn)識(shí),任務(wù)實(shí)在過于繁重。所以,更好的方法就是在一開始就從to b端的公立學(xué)校、教育機(jī)構(gòu)去切入,讓教育局、教師等為分級閱覽背書,且還能增強(qiáng)企業(yè)產(chǎn)品的公共信服力。
2、目前獲取c端客戶的價(jià)錢依然較高。
基于此,趙梓淳表示, 所以我們還是想在b端穩(wěn)扎穩(wěn)打下去。后期企業(yè)快速發(fā)展到一定程度之后,必定會(huì)走向to c端,畢竟to b的天花板一定是可以預(yù)見的。
丨牽手200余所中小學(xué)
然而,在在線教育這一慢熱的市場,特別是在很多教育資源都被政府等關(guān)聯(lián)機(jī)構(gòu)緊緊攥在手里的情況下,考拉閱覽又是怎么打通這些壁壘,與教育局,以及地級市200余所學(xué)校成功牽手的呢?
趙梓淳告訴雷鋒網(wǎng),事實(shí)上,考拉閱覽一開始走這條路也不太順利 先其采取對每家學(xué)校進(jìn)行單點(diǎn)突破的方法,卻發(fā)現(xiàn)效率非常低下。
趙梓淳帶領(lǐng)其團(tuán)隊(duì)注意到這樣一個(gè)現(xiàn)象,國內(nèi)很多中小學(xué)都很重視學(xué)生的測評,但在閱覽能力的測評上卻處于相對空白的狀態(tài)。于是,考拉閱覽聯(lián)合北京師范大學(xué)基礎(chǔ)教育評測中心合作「搞」了一件大事:在國內(nèi)的一線到四線城市,對近10萬學(xué)生進(jìn)行了基于er framework和 新課標(biāo) 的閱覽能力測試,并對關(guān)聯(lián)數(shù)據(jù)進(jìn)行拆析,終出具了一份中國學(xué)生的閱覽能力量表。在測評的助攻下,考拉閱覽成功打通了和中小學(xué)合作的路徑。
丨開設(shè)教師培訓(xùn)課程
并且,在推進(jìn)分級閱覽標(biāo)準(zhǔn)的過程中,考拉閱覽發(fā)現(xiàn)「教師」這一角色反而是整個(gè)推進(jìn)過程的關(guān)鍵角色。因?yàn)殡m然已經(jīng)開發(fā)出中文分級閱覽標(biāo)準(zhǔn)及其配套工具和產(chǎn)品,但在趙梓淳看來,這些工具和產(chǎn)品依然需要人來采用,需要教育者來向這些孩子傳播教育的溫度和理念。但是,國內(nèi)教育理念跟不上,語文教師對整個(gè)前沿教育的趨勢掌握不到位......這些都是問題。
對比這一痛點(diǎn),考拉閱覽還和學(xué)校合作開展了20課時(shí)和40課時(shí)不同版本的對比教師的培訓(xùn)課程,由其團(tuán)隊(duì)里具有深厚教研經(jīng)驗(yàn)的成員進(jìn)行研發(fā),分為線下集中輔導(dǎo)和線上遠(yuǎn)程支持兩種路徑,以培訓(xùn)教師們及時(shí)更新各種新興教育理念的能力,從而及時(shí)掌握教育閱覽的新快速發(fā)展趨勢。
分級閱覽進(jìn)入國內(nèi)的這些年,不是沒有遭受過質(zhì)疑之聲,有人認(rèn)為分級閱覽不適應(yīng)中國國情,比如有些孩子從小耳濡目染四大名著,可能會(huì)對超出分級閱覽系統(tǒng)推薦的書目以外的書籍興致趣,當(dāng)然不能排除這種可能性。
面對這一問題,趙梓淳如此表示:
分級閱覽系統(tǒng)只是一種工具,它并不能喧賓奪主說可以取代老師。我們做分級閱覽的意義就在于,想告訴家長和老師,哪種文案難度的書目是適合你的孩子或?qū)W生去閱覽的。至于讀還是不讀,依然需要家長和老師去做出評估。
隨后,在談及推進(jìn)分級閱讀教學(xué)過程的體會(huì)時(shí),趙梓淳坦率地表示,教育是一個(gè)大事件,它與人性直接相關(guān),因此并不是只做產(chǎn)品就能實(shí)現(xiàn)“通吃”。 大家總是說“科技教育”而不是“科技教育”。 因?yàn)榻逃欢ㄊ堑谝晃坏摹?/p>
相關(guān)查詢
Alexa排名趨勢
溫馨提示:尊敬的[]站點(diǎn)管理員,將本頁鏈接加入您的網(wǎng)站友情鏈接,下次可以快速來到這里更新您的站點(diǎn)信息哦!每天更新您的[“考拉閱覽CEO:怎么利用AI、語言學(xué)做出國內(nèi)首個(gè)中文分級閱覽系統(tǒng)?”]站點(diǎn)信息,可以排到首頁最前端的位置,讓更多人看到您站點(diǎn)的信息哦。
