UWInfo Blog

搜尋

搜尋意見

文章分類-#Author#

[所有文章分類]

最新回應

IIS 配合 AD (Active Directory) 認証, 使用 .Net 6.0
太感謝你了~~~你救了我被windows 認證卡了好幾天QQ...more
PostgreSQL 的 monitor trigger
FOR EACH ROW 可能要改為 FOR EACH STATEMENT ...more
[錯誤訊息] 請加入 ScriptResourceMapping 命名的 jquery (區分大小寫)
efefef...more
用 Javascript 跨網頁讀取 cookie (Cookie cross page, path of cookie)
;;;;...more
匯出 let's encryption的憑証
1. win-acme 選擇 A: Manage renewals找到你要轉移的憑證名稱和密碼2. ...more
dotnet ef dbcontext scaffold
更新到最新版的 dotnet-ef tooldotnet tool update --global ...more
dotnet ef dbcontext scaffold
還需要這個:Microsoft.EntityFrameworkCore.Design...more
dotnet ef dbcontext scaffold
指定版本:dotnet add package Microsoft.EntityFrameworkC...more
資安問題 -- 存入 DB 後顯示內容
伺服器隱碼問題1 寫入DB前不是當成字串就執行某些事情 (某些server 漏洞? 許功蓋?)2 寫...more
匯出 let's encryption的憑証
【注意】要打開 win-acme <<這個軟體匯出憑證...more

標籤

搜尋 tim 結果：

使用Lucene.Net達成全文檢索！基礎解說(一)

Lucene.Net是一套C#開源全文索引庫，其主要包含了:
· Index : 提供索引的管理與詞組的排序
· Search : 提供查詢相關功能
· Store : 支援資料儲存管理，包括I/O操作
· Util : 共用套件
· Documents : 負責描述索引儲存時的文件結構管理
· QueryParsers : 提供查詢語法
· Analysis : 負責分析內容
要達到高效能的全文檢索讓機器可以明白我們的語言，最重要的關鍵就是"分詞器"了。
試想一下這一句話你會如何拆分成一段一段的關鍵字呢?
"一天一蘋果，醫生遠離我"
還有英文版本
"An apple a day, doctor keep me away."
中文版本的拆分:
"一天"、"一"、"蘋果"、"醫生"、"遠離"、"我"
英文版本的拆分:
"apple"、"day"、"doctor"、"keep"、"me"、"away"
有沒有注意到不同語系所分析出來的關鍵字有一點不一樣呢?
而在Lucene中分詞的工作會交給Analysis來完成，
不過我們可以依照不同的語系去選擇想使用的分詞器(Analyzer)！

首先簡單說明一下Lucene的實作流程
1. 確認主要搜尋的語系來決定使用的分詞器(analyzer)
2. 建立Document依照analyzer匯入資料
(前置完成)
3. 建立IndexSearcher導入準備好的Document
4. 建立Parser來分析SearchValue
5. 使用IndexSearcher分析Parser取得結果(Hits)
*本專案使用的是Lucene.Net 3.0.3*
接下來我們來建立一個提供查詢使用的Document。

 // 取得或建立Lucene文件資料夾

        if (!File.Exists(_dir.FullName))

        {

            System.IO.Directory.CreateDirectory(_dir.FullName);

        }

        // Asp.Net Core需要於Nuget安裝System.Configuration.ConfigurationManager提供用戶端應用程式的組態檔存取

        Lucene.Net.Store.Directory directory = FSDirectory.Open(_dir);

        // 選擇分詞器

        var analyzer = new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_CURRENT);

        // 資料來源

        var repository = new Repository();

        // 依照指定的文件結構來建立

        var indexWriter = new IndexWriter(directory, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);

        foreach (var index in repository)

        {

            var document = new Document();

            document.Add(new Field("Id", index.Id.ToString(), Field.Store.YES, Field.Index.NO));

            document.Add(new Field("Name", index.Name, Field.Store.YES, Field.Index.ANALYZED));

            document.Add(new Field("Description", index.Description, Field.Store.NO, Field.Index.ANALYZED));

            indexWriter.AddDocument(document);

        }

        indexWriter.Optimize();

        indexWriter.Commit();

        indexWriter.Dispose();

如此一來我們就建立好Lucene的基本配備囉！
其中analyzer的部分我們使用Lucene.Net預設，
要特別注意的是，其處理中文語系的能力非常之爛！
之後再寫一篇文章深入探討。
再來值得一提的是

document.Add(new Field("Id", index.Id.ToString(), Field.Store.YES, Field.Index.NO));

前兩個參數就是Key跟Value，可以簡單理解為欄位與其內容。
後面兩個參數是重點！
Store: 代表是否儲存這個Key的Value
例如在google打上台南美食會搜索出許多不同的文章連結，
不過google給你的資料中最重要的不是文章內容(Description)，
而是哪一篇文章(Name)與台南美食最有關係。
假如今天我只要回傳一個列表而不用提示文章中有哪些內容，
那麼我就可以選擇給"Description" Field.Store.No來節省空間。
Index:
· NO - 不加入索引，這個內容只需要隨著結果出爐，不需要在查詢的時候被考慮。
· ANALYZED、NOT_ANALYZED - 是否使用分詞
· NO_NORMS - 關閉權重功能
或許許多人會對權重功能(NORMS)感到疑惑，
簡單的舉個例子
{ Id=1, Key="蘋果", Value="一天一蘋果，醫生遠離我。"}
{ Id=2, Key="橘子", Value="醫生給娜美最珍貴的寶藏。"}
{ Id=3, Key="梨子", Value="我是梨子，比蘋果蘋果好吃多囉！"}
當我搜尋"蘋果"的時候結果會是
{ Id=1, MatchKey=1, MatchValue=1, Score=(1*5) + (1*2) = 7}
{ Id=3, MatchKey=0, MatchValue=1, Score=(0*5) + (2*2) = 4}
有發現了嗎？
雖然同樣都對中兩個結果但是Id 1的資料Key值中有包含關鍵字，
因此得到較高的分數排在Id 3前方
準備好Document了，我們可以開始來實際使用看看囉！

// 決定所要搜索的欄位

        var parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_CURRENT, "Description", analyzer).Parse(searchValue);

        // 提供剛剛建立的Document

        var indexSearcher = new IndexSearcher(directory);

        // 搜尋取出結果的數量

        var queryLimit = 20;

        // 開始搜尋！

        var hits = indexSearcher.Search(parser, queryLimit);

        if (!hits.ScoreDocs.Any())

        {

            Console.WriteLine("查無相關結果。");

            return;

        }

        Document doc;

        foreach (var hit in hits.ScoreDocs)

        {

            doc = indexSearcher.Doc(hit.Doc);

            Console.WriteLine("Score :" + hit.Score + ", Id :" + doc.Get("Id") + ", Name :" + doc.Get("Name") + ", Description :" + doc.Get("Description"));

        }

最後的結果(Hits)，是需要再回到Document去撈出對應的資料喔！
是不是非常簡單呢？
筆者寫了一個簡單的範例在GitHub上，秉持著追求新技術的心使用了.Net 6，還請各位大大多多包涵。
有中英文兩種Repository，只需要在上方的DI注入切換就可以囉！
GitHub連結: https://github.com/g13579112000/Lucene
筆者第一次撰寫這種教學文章，有哪邊錯誤的非常歡迎一起來討論指教。
之後有機會再撰寫Lucene更深入的應用方面，
例如權重的分配與分詞器的選擇與使用。
感謝您的閱讀。

參考文獻：
1.黑暗大大的全文檢索筆記: https://blog.darkthread.net/blog/lucene-net-notes-1/
2.使用.Net實現全文檢索: https://blog.csdn.net/huwei2003/article/details/53408388
3.伊凡的部落格: http://irfen.me/5-lucene4-9-learning-record-lucene-analysis-tokenizer/
4.純淨天空代碼範例: https://vimsky.com/zh-tw/examples/detail/csharp-ex-Lucene.Net.Documents-Document---class.html

More...

梨子, 2022/2/24 下午 08:23:46

DtToWorkSheet 的預設日期格式

1. 增加 dateTimeFormat, isAutoToDate
2. 增加 static string ExportDateTimeFormat

More...

Bike, 2022/1/6 上午 11:21:07

SU 的新規格 RFP

1. .Net Core 5.0 使用.
2. 可切換後, 適用於 MsSQL, MySql, Oracle
3. 預設所有 SQL 執行時要經過 SQL Injection 檢查.
(移除 "CheckDangerSQL", 併入 IsSqlInjection)

預設會把 CR 和 LF 換成空白，以免 sql injection 檢查發生錯誤, 有參數可以控制這個行為。sql 和資料應該要分開，sql 中的 CR 和 LF 被換成空白應該不會有問題。

4. 不要再使用 SqlStr, 改用 SqlValue (避免誤用, SqlStr 有一個問題, 若是忘了加上 '' 會有可能造成 sql injection)

5. ORM 的 Class Name, 若遇到全大寫的字節, 要先轉小寫, 再把第一個字母變大寫.

6. CopyPropertiesTo, CopyTo..
SetValue 時, 若發生錯誤, 要顯示錯誤欄位名稱. (Tmi 的版本, ObjUtil.cs)

7. CopyFromDataRow:
string 自動轉 DateTime
string 自動轉 int, long, decimal..

8. Criteria 的 In 和 operator (|) 要接 list 做為參數, 不要再直接用字串做參數.

9. OrderBy 增加 by column 且可以多個串接

10. Update 時可以用 sql 語法 (參考聖宜的 GetSetFieldWithExpression)

11. 檢查 SQL Injection 的方法改為先把 \r 和 \n 用空白取代，再檢查, 再取代參數。

12. DtFromSql 和 ExecuteSql 傳入 connection 和 transaction 的版本先刪除，未來有需要再增加。

More...

Bike, 2021/10/18 下午 04:29:15

奇怪的 alert 問題.. 用 setTimeout 來解決.

以下的程式碼, 直接 alert(this.errorMessages); 會造成 chrome 卡住..
使用 setTimeout 延後 alert 可以解決這個問題. 但必需延後足夠的時間. 已知 200 ms 依然會卡住.

    errorMessages: "",



    failProcess: function (ret) {

        console.log("failProcess start: " + new Date().getSeconds() + "." + new Date().getMilliseconds());

        var json = ret.responseJSON;

        if (json && json.invalidatedPayloads) {

            var errors = json.invalidatedPayloads.filter(function F(x) {

                return x.messages.length > 0

            });



            console.log("bdfore add class: " + new Date().getSeconds() + "." + new Date().getMilliseconds());



            errors.map(function (x) {

                return $("[name='" + x.name + "']").addClass("error");

            });



            console.log("after add class: " + new Date().getSeconds() + "." + new Date().getMilliseconds());



            errorMessages = errors.map(function (x) {

                    return x.messages.join('\r\n');

            }).join('\r\n');



            console.log("afger build errorMessages: " + new Date().getSeconds() + "." + new Date().getMilliseconds());

            console.log(errorMessages);



            //alert(this.errorMessages);



            window.setTimeout(api.alertError, 500);



            console.log("after alert: " + new Date().getSeconds() + "." + new Date().getMilliseconds());

        }



        console.log("failProcess end: " + new Date().getSeconds() + "." + new Date().getMilliseconds());

    },

More...

Bike, 2021/9/29 下午 08:45:07

DateTime porperty 的 Model Validation

對 DateTime 的 property 直接設定 Require 的 Validation 會失敗. 因為茌是 client 送來空白, 會發生轉型的錯誤, 而不是 Require 的錯誤

可以把該 property 改設定為 DateTime? 來解決這個問題.

More...

Bike, 2021/9/23 下午 10:26:41

Framework未安裝, 但實際上已經安裝

下載Runtime版本打開後出現, 【這部電腦已經安裝 .NET Framework 4.6.2 (含) 以上版本的更新】

後來下載Developer Pack版本安裝完畢後就可以了
https://dotnet.microsoft.com/download/dotnet-framework/net462

More...

choco, 2021/8/23 下午 02:28:48

UW DB 元件罕見的錯誤

今天小三的網站發生怪異的情況，造成網站莫名其妙跑出天天簽到的彈跳視窗



var oEM = new EverydayMain();

oEM.EndDate__StartOrEqual = DateTime.Now.Date; //只要限結束日期就好. (以日為單位)

oEM.Type = EN.Type.彈出式;



oEM.QuerySql();

// 卻產出SQL Select * from [Everyday_Main] With(NoLock)

// 但應該產出 Select * from [Everyday_Main] With(NoLock)    Where [EndDate] >= Convert(datetime, '2021-07-15T00:00:00') and [EN_Type] = 200

使用 set 條件，但產出的SQL卻是沒有 where 字串，這情況我是第一次遇到
是不是產出SQL時這中間用到 static 物件，可能要查一下
-----------------------------

        private static Hashtable _htTypeDefines;

        public static Hashtable htTypeDefines

        {

            get

            {

                if (_htTypeDefines == null)

                {

                    _htTypeDefines = new Hashtable();

                    _htTypeDefines.Add("Id", "int");

看樣子是網站第一次使用DB物件時，兩個 thread 同時在跑會造成這樣的現象
這裡應該要 lock

More...

darren, 2021/7/15 下午 12:32:38

HTTP 錯誤 413.1 - Request Entity Too Large

httpRuntime 加 maxRequestLength 沒作用, 請到 system.webServer 設定 maxAllowedContentLength

<system.webServer>

...

<security>

<requestFiltering>

    <!--1073741824 ==> 1GB-->

    <requestLimits maxAllowedContentLength="1073741824" />

</requestFiltering>

</security>

...

</system.webServer>

More...

Reiko, 2021/3/25 下午 02:36:36

ORM 的新範列

一些範列如下:

        //直接使用 Operator

        var products = ORM.Product.Select()

            .Where(CN.Product.Name == "ABC")

            .And(CN.Product.Name != "DEF")

            .And(CN.Product.Name % "ABC%") //這是 Like

            .And(CN.Product.Name | "apple, orange".SqlListStr()) // 這是 in

            .And(CN.Product.Is_Available)

            .And(!CN.Product.Is_Deleted)

            .And(CN.Product.OriginalPrice > 5)

            .And(CN.Product.OriginalPrice <= 500)

            .And(CN.Product.CreateDate < DateTime.Now.AddMonths(-1))

            .GetList<ORM.Product>();



//產出 SQL: Select * From [Product] (NoLock) Where ( ([Name] <> N'DEF') ) And ( ([Name] like N'ABC%') ) And ( ([Name] in ('apple',' orange')) ) And ([Is_Available] = 'Y') And ( ([Is_Deleted] = 'N') ) And ( ([OriginalPrice] > 5) ) And ( ([OriginalPrice] <= 500) ) And ( ([CreateDate] < '2020-11-26T10:17:15.553') )





        //用 Id 取出物件並修改

        var product = ORM.Product.Get(3);

        U2.WU.DebugWriteLine(product.Name);

        product.Name = "平格藍均抱枕套45*45 ABC";

        product.Modify();



        //新增一筆資料

        var newId = new ORM.Product()

        {

            Name = "New Product",

            OriginalPrice = 100,

            Is_Hot = "Y"

        }.Add();



        //用 Id 修改資料

        var updateCount = new ORM.Product(3)

        {

            Name = "New Product",

            OriginalPrice = 100,

            Is_Hot = "Y"

        }.Modify();

More...

Bike, 2020/12/26 下午 12:04:26

命名規則

名命規則

C#:
參數, 區域變數: 小駝峰(CamelCasing)
其它: 大駝峰(PascalCasing)
參考:
  https://docs.microsoft.com/zh-tw/dotnet/standard/design-guidelines/naming-guidelines

Javascript:
小駝峰(CamelCasing)

網址:
全小寫, 用 - (減號) 分隔單字
參考:
  https://www.seoseo.com.tw/article_detail_609.html
  https://blog.miniasp.com/post/2011/01/14/Avoid-using-underline-as-domain-name-character
  http://epaper.gotop.com.tw/pdf/acn023600.pdf

class 名命 HTML :
全小寫, 用 - (減號) 分隔單字

複合字範列:

Pascal	Camel	Not
BitFlag	bitFlag	Bitflag
Callback	callback	CallBack
Canceled	canceled	Cancelled
DoNot	doNot	Don't
Email	email	EMail
Endpoint	endpoint	EndPoint
FileName	fileName	Filename
Gridline	gridline	GridLine
Hashtable	hashtable	HashTable
Id	id	ID
Indexes	indexes	Indices
LogOff	logOff	LogOut
LogOn	logOn	LogIn
Metadata	metadata	MetaData, metaData
Multipanel	multipanel	MultiPanel
Multiview	multiview	MultiView
Namespace	namespace	NameSpace
Ok	ok	OK
Pi	pi	PI
Placeholder	placeholder	PlaceHolder
SignIn	signIn	SignOn
SignOut	signOut	SignOff
UserName	userName	Username
WhiteSpace	whiteSpace	Whitespace
Writable	writable	Writeable
DateTimePicker	dateTimePicker	DatetimePicker

More...

Bike, 2020/7/28 上午 08:00:08