2009年4月7日 星期二

蠟燭兩頭燒

最近真的很忙,除了reason extraction文章的label,blog post的實驗,還有kdd cup的資料要處理,弄得有點頭暈,昨天弄完實驗的資料傳給老師後,今天一大早差點睡過頭...所幸走路速度很快,沒有遲到 哈

今天先跑完維度資料後,要早點回去睡,明天再專心處理,不然,我想我的腦袋會亂糟糟

2009年3月20日 星期五

PHP

雖然說PHP也用了兩年,大學也有在自己學,不過感覺還是不精通阿
就像其他的程式語言一樣,雖然幾乎都自己學過,但是樣樣通,卻是樣樣不精
頂多是有一般人寫的水準,無法更進一步。

很想要再多學點程式及系統的規劃,像是模組的流程,設計,在PHP中稱為MVC(modal,viewer,controller)
這類的規劃,我覺得對於目前論文的系統很重要,主要在於程式的設計,不要過於繁複,盡量簡化,模組物件化,可以使得系統提高效率,所以呢,上次哲民推薦的人月神話這本我想買來參考,對於現在或是以後,應該能讓我的能力更上一層樓,再來程式和論文還要再多加強,撰寫論文時,每每下筆都覺得字句不通,需要不斷修改,英文也要再加強,能力還是不夠阿啊阿啊...唉

2009年3月17日 星期二

系統建構

流程真的挺重要,依照當初設計好的流程,一步一步建構,就像蓋房子一樣,總是要有張藍圖照著走,現在phase 1的部分大概都完成了,介面也稍微設計了一下,看起來比較正常了,有趣的是,每次再把不同component合併時,總是會有一些問題,當昨天把介面和程式串起來的時候,又出現一堆詭異的小蟲,花了一個下午才解決,不過整體上都還OK,真慶幸我寫的程式彈性很大,不管怎樣改都可以,哈

另外擷取網頁也找到可以使用的工具,其實這個工具在之前就用過,只是當初沒發現他可以採用multi的方式擷取網頁,昨天稍微測了一下,100個網頁約十秒,快則六秒,慢則十一,這比當初快了五十倍左右阿,真是不錯呢,今天要試試看五百到一千個網頁會多久,如果可以的話就會加到phase 1

2009年3月9日 星期一

當一件事情做久了會有種錯覺

那就是會覺得自己瞭解的很深入,實則不然
每次在寫程式的時候,或者看書、看電影,內容可能是重複,但是每次看都會有不同的感受

今天在改程式的時候,又開始這種感覺,可能是改的不順還是怎樣,雖然大致上multi-word query和query extension都做好了,想想還是有些小問題,不過大體上都不影響,結果可能會有些許誤差

後來又在想multi-thread該怎樣處理,一晃神,突然想到其實也不用特意改到linux才行,在windows下呼叫用其他能處理的程式應該也可以,不過現在還處於測試的階段,如果可以的話,那就方便多了,可以省去不少麻煩阿 ha

2009年2月25日 星期三

好想睡覺

為了處理系統移到linux,弄了一個禮拜,幾乎沒什麼睡,因為以前也很少在用linux,用起來很不順手,主要問題還是程式執行會發生錯誤,還有pcntl一直找不到怎樣安裝,雖然說是php內建模組,但是不管是內建的PHP或者自行安裝的版本,兩者都沒有這個模組,真是活見鬼...

另外論文的修改還算順利,畢竟這個領域的文獻閱讀還算足夠,從碩一上就開始接觸,到目前為止背景知識建立算是基礎都有了,只是在撰寫有待加強,所以我現在都有在練習寫文獻摘要,或者是寫下對每天做事情的心得,只是不一定會寫在部落格就是了

這學期有兩門老師的課,有空的話比較想要聽Data Mining,畢竟沒有修過,覺得這方面的背景知識還是不夠。

呼,今天要早點睡,現在在寫這篇時,我的眼睛快要閉上了...

2009年2月17日 星期二

關於字典擴充

因為在background的部分需要不斷增加情緒字典的詞彙,找到一篇還蠻有幫助的論文:combining local and global resources for constructing an error-minimized opinion word dictionary,出自PRICAI 2008,這篇論文中提到一個蠻重要的論點,當我們不斷增加情緒字典的seed word,會產生錯誤判斷,將字放到不正確的屬性,比方fake會被放到positive的部分,但其實fake應該是屬於negative,這篇論文提出的方法目前看起來是有效的解決這個問題,等看完這篇論文後,在和實驗室的同學分享。

2009年2月12日 星期四

系統修改

目前算是告一段落了。

online版本因為採用登凱學長的論文其中一個方法,實做比較快,現在已經和原本系統銜接上,不過其準確率還有帶加強,會用學長的方法主要原因是快,減少原系統的處理時間,固定的情緒字典比起將每個字丟到Altavista查詢快多了,為什麼呢?比方說現在一篇文章有十萬個字,一旦使用altavista查詢並且回傳值,等待時間非常久,就算一個字一秒,也要十萬秒才能完成每個字的權重計算,但是情緒字典不同,在online的系統中,不必等待過多的時間,啪一下就可以完成,多麼令人感動阿。

不過另外一個麻煩是系統移植到unix-like的平台,檔案權限和library的處理始終讓我一個頭兩個大,查了很久,還是沒有找到解決方式,我想最近寄個信件給許富浩老師,畢竟張老師對這個比較熟悉,我自己還是不熟。

希望能夠盡快完成論文,唉,感覺我的寫作仍然有待加強,思路不通,表達不明。