2007年12月24日 星期一

最近的上課和工作的感想

這一個多月來,從老師交代的工作中學到了不少東西,也從paper中學到了很多東西,雖然說其中也遇到很多問題,比方說paper的conference找的不夠好,研讀的不夠仔細,網頁撰寫的時候遇到的問題目前為止都在可以解決的範圍中,也從網路上找到許多技術可以是用(或許稱為技巧比較好!)。

截至目前為止,網頁的工作也快要到一個段落,現在遇到比較大的問題是整合的時候發生一件很奇怪的事,處理setiment的時候,一直會發生timeout,也發生被AltaVista檔掉的事情,因此,我想把這個部分切成幾個小部分去做,將term分成幾個小部分去跑,看會不會比較好,目前卡在這邊已經很久了,因為跑一次就要四五個小時,結果等到跑完卻出現timeout的訊息,真是令人頭大。這個部分可能還要和學長討論一下,在和老師報告。

不過接下來很多功課要處理,不曉得是不是能夠順利完成,希望能夠盡快完成這一部份,讓網頁能夠進早完成。

2007年11月8日 星期四

本日進度

目前已經把pre-processing的部分做完, irrelevent blog filtering的部分也做的差不多了,
接下來要進到比較麻煩的部分:reason extraction,這邊我想要採用的方法是LODR,去計算include reason的強度,不過在計算上可能會比較麻煩,要記錄的東西也相當多,希望能夠順利寫完.

2007年10月21日 星期日

效能問題..

目前坤璋程式進度還算OK
不過有一個地方效能不是很好
就是一開始擷取網頁的部分

雖然說在坤璋的程式裡也是要跑很久,
不過php也是一樣,目前找了一些io的方法來看
不曉得能不能找到加速io的方法.

2007年10月13日 星期六

目前進度...

星期四meeting後,我有檢討一下
基本上坤璋的論文就如同老師講的,是我自己沒看懂,所以我連抓出來show在網頁上的檔案都不清楚是什麼

再來是程式的部分
老師說的地方大概都知道怎樣去加強
不過因為程式是用BCB所寫的
很多套件的地方要重寫,改起來也會相對的麻煩很多,不會比較快
這個部分可能要和老師溝通了
因為我也很苦惱,要改的話,時間上會不夠,用PHP改的話,因為有些地方可以直接改用套件部分
相對會比較快讓系統run起來
大致上應該這上次meeting之後的想法

2007年10月7日 星期日

Tags消除

因為所有的檔案都是從網頁上分析之後取出
現在因為要將資料output在browser中
透過php函式strip_tags可以將取出的段落中包含html以及php標籤都移除
且標籤若是非法,會在browser顯示.

另外,剛剛發現在三維陣列表示中
我把維度搞錯了 ...
結果印出的資料回圈跑太多次,速度也很慢
剛剛改好之後速度就快多了.

Regular expression(2)

這篇是對regular expression的解釋

$patterns = array("/((1920)\d{2})-(\d{1,2})-(\d{1,2})/", "/^\s*{(\w+)}\s*=/");

$replace = array("\\3/\\4/\\1", "$\\1=");print preg_replace($patterns, $replace, "{startDate} = 1969-6-19");

1./ 和 / 所夾的部分代表要比對的 pattern
2.^ 代表從字串開頭\s 代表 [\r\n\t\f\v] 換行、跳行、空白字串..

3.代表 0 or 1 or any\w 代表 [a-zA-Z0-9_]+ 代表 1 or any\d 代表 0-9 的數字
所以 " {startDate} =" 亦符合 /^\s*{(\w+)}\s*=/
4.((1920)\d{2}) 代表會搜尋 19 或 20 開頭、並且其後接有兩位數字的 pattern
像是: 1983、2006。

5.\d{2}代表數字需重複兩次,換個角度來說,可看成要尋找兩位數。

\d{1,2}則是至少出現一次、至多出現兩次,如:1、31、99..

6.\\3/\\4/\\1則表示將符合的模式的結果,取代為第三個set/第四個set/第一個set

\\1 表示符合 ((1920)\d{2}) \\2 表示符合 (1920) \\3 表示符合 (\d{1,2}) \\4 表示符合 (\d{1,2})
就本例而言: 1969-6-19 變成 6/19/1969

這篇範例可以讓我門了解到如何在php上表達以及使用regular expression和preg_replace

Regular exepression

對於分析文字檔中含有網頁tag,現在想到的是利用preg_replace()將所有的html標籤刪除

下面兩個網頁是針對這個function所有功能的表示
http://tw.php.net/manual/en/ref.pcre.php
http://tw.php.net/manual/en/ref.regex.php

這個function蠻好用的
希望今天能把這部分弄完.
接下來就可以改快來弄美工的部分...

2007年9月30日 星期日

php呼叫外部程式

星期五找到現在,大概找到三種方式可以call外部的程式執行,
不過都有一些奇怪的地方,不符合我想的方式...

網上查的有三種,exec(),system(),shell_exec(),
比方說我想要執行一個mp3的檔案,可以用這些function呼叫,不過都沒有開啟成功,
查了說是safe_mode和檔案權限的關係,不過我看了一下,設定是OK的.

真懷疑是那邊出問題,明天還要去圖書館查資料,晚上再把坤璋說的流程自己跑一次
這樣才不會搞混.

2007年9月23日 星期日

回家後

感覺很慘...
網路很慢,連到國外的blog可能要等半小時,沒辦法做
偏偏這幾天又很多事情,想說有空閒就來找,沒想到連不出去...

看來只好先把資料找一找,和坤璋討論一下該做的事情

2007年9月20日 星期四

最近小感想

星期二meeting後,對老師丟的那個網頁有稍微想了一下,感覺他所謂的一次兩個比較也只是把單一個search的結果放再同一個網頁,和一次SEARCH一個topic沒什麼分別.

不過比較好奇的是,他是如何去分類,將TOPIC的positive以及negitive分出來,因為search之後,分類出來的速度相當快,相對於我現在分類的速度快很多,對於這個地方有一點想法,不曉得他是利用程式去抓keyword之後,含有關鍵字詞的段落分群,或者是以人工的方式去update,看來要和坤璋討論一下...

星期三上完linux之後,覺得自己好像有更懂了一些所謂的電腦,恩...不是很會描述,不過聽完課的感覺很棒,雖然老師上的很快(這是缺點,而且講話有時候會不清楚),整體來說是門好課.

接下來是把要報告的paper整理然後把投影片做好,這次要報告的是PVA(Personal view agent),不過也看了大概四篇相關的Paper,查了不少資料,看懂一篇PAPER的感覺真的不賴,哈

再來要加速把TOPIC的分群弄好,不然回家的時候沒電腦可以使用,進度會落後...

2007年9月16日 星期日

2007年9月11日 星期二

開學囉

已經開學三天了,這三天上的課感覺都還不錯,希望能學到不少東西

現在重新作BLOG的東西,進度有點慢,因為和我之前想的方式不太依樣,所以作起來速度變好慢,
不過每天做的話,進度應該可以趕回來,呼,加油!!!!!!!!!!
剛剛有看到一篇iphone拍的相片,畫質還不錯,有一般相機拍攝的畫質
http://bobmarcum.spaces.live.com/photos/cns!FDCB2990C1DAD37F!520/
有興趣可以看看

---
lab冷氣太冷了,不穿外套應該會冷到發抖...

2007年9月9日 星期日

iphone-part2

前幾天問坤璋才發現我找blog的方式找錯,要整個重新找...結果這幾天有事回家,也沒辦法找,所以現在要追回之前的進度,可能要花不少時間了..

2007年9月5日 星期三

i-phone

昨天搬完家之後,一整天都呈現很疲勞的狀態,所以就暫時沒找i-phone的blog資料.

今天早上一大早就跑去體檢,看到抽血那關,前面那個人被護士戳五六針的臉...幸好我有換護士,不然手臂應該會痛一整天,事情都不用做了.
下午開始找剩下i-phone的blog資料,發現其實很多的information都是在講i-phone被破解,可以不用付費即可使用的那件事,不難發現,很多安全上或者資料傳遞上的問題都極為重要.可能只是一個很小的漏洞,卻會造成很大的問題,諸如此類.

2007年9月2日 星期日

近期該做的事

1.複習之前讀過的paper.
2.把iphone,wii,wimax等相關blog文章加快找完,不過還不是很確定wimax和wii的內容
3.搬家,要搬的東西真的不少,今天整理的時候一直打噴嚏,灰塵太多了...

呼,搬過去學校之後真的就開始研究生的生活了!

2007年8月30日 星期四

今天meeting...

今天聽登凱報關於Shape Anomaly Detection,其中作者提出的解決方法是Hidden Markov Models,這和老師之前讓我看的那幾篇中裡面有一篇類似,不過對那篇當時在看的時候,有很多地方不懂,尤其是在算式部份,感覺沒有特別說明或者是解釋,在聽過登凱報告後,對於那篇好像有點感覺,所以打算再回去看一次,希望這次能夠看懂.


另外在Naive Solution Alignment那部份還是不太懂,不懂的是在挑選time series以及和其他的time series比對校正的時候,挑選的方式是什麼,是以一個為基準,和其他比較校正,還是分群比較後校正,可能要等下次meeting的時候再問登凱了.


題外話,今天回家的時候,和哲民在電車上聊很多關於他之前在公司的事情,以及他為什麼想要再讀研究所,這讓我對自己念研究所有一些新的想法.不過哲民還蠻健談,上電車聊很久,不知不覺就到板橋,哈.

2007年8月28日 星期二